GoogleのGemmaはすでにGeminiのように動作する―誰かがClaude Opusのように思考させることにも成功

ローカルAIシーンを追っている方なら、Qwopusをご存知でしょう。これは、Claude Opus 4.6の推論をアリババのQwenに蒸留しようとしたオープンソースモデルで、自分のハードウェアでOpusに似たものを無料で実行できるようにしました。驚くほどうまく機能しました。明らかな欠点は、QwenがChinese modelであり、誰もがそれに満足しているわけではないことです。

そのプロジェクトの背後にいる同じ匿名開発者Jackrongは、フィードバックを聞きました。彼の答えがGemopusです。これは、Googleのオープンソース Gemma 4 上に完全に構築された Claude Opus スタイルのファインチューンの新しいファミリーです。オールアメリカンDNA、同じアイデア:フロンティアレベルの推論を、すでに所有しているハードウェア上でローカルに実行します。

このファミリーには2つのフレーバーがあります。Gemopus-4-26B-A4Bは重量級のオプションで、合計260億のパラメータを持つMixture of Expertsモデルですが、推論時には約40億のみがアクティブになります。つまり、制約されたハードウェア上でその重量を大幅に上回るパフォーマンスを発揮します。

パラメータは、AIの学習、推論、情報保存の能力を決定するものです。合計260億のパラメータを持つことで、モデルは膨大な知識の幅を持ちます。しかし、特定のプロンプトに関連する40億のパラメータのみを「起動」することで、大規模なAIの高品質な結果を提供しながら、日常的なハードウェア上でスムーズに実行できる軽量さを維持します。

もう1つは Gemopus-4-E4B で、最新のiPhoneや薄型軽量MacBookで快適に実行できるように設計された40億パラメータのエッジモデルです。GPUは不要です。

ベースモデルの選択がここでは重要です。4月2日にリリースされたGoogleの Gemma 4 は、Gemini 3 と同じ研究と技術から直接構築されています。同社はローンチ時に明確にそう述べました。つまり、Gemopusは、Qwenベースのファインチューンが主張できないものを持っています:Googleの最先端クローズドモデルのDNAをベースにし、その上にAnthropicの思考スタイルをラップしています。多かれ少なかれ、両方の世界のベストです。

現在Hugging Faceにあふれている他のGemmaファインチューンの波とGemopusを異なるものにしているのは、その背後にある哲学です。Jackrongは意図的に、Claudeのchain-of-thought推論トレースをGemmaの重みに強制的に組み込まないことを選択しました。これは、競合するほとんどのリリースが取るショートカットです。

最近の研究に裏付けられた彼の主張は、学生モデルに教師の表面的な推論テキストを詰め込んでも、実際の推論能力は伝達されないということです。それは模倣を教えるだけで、論理ではありません。「Claudeスタイルのchain of thoughtの過度な想像や迷信的な複製は必要ありません」とモデルカードに書かれています。代わりに、彼は回答の品質、構造の明確性、会話の自然さに焦点を当て、Gemmaの堅苦しいWikipediaトーンと、尋ねていないことについて講義する傾向を修正しました。

AIインフラストラクチャエンジニアのKyle Hesslingは、独立したベンチマークを実行し、結果をモデルカードに直接公開しました。26Bバリアントに対する彼の評決はかなり好意的でした。「これをかなりハードにベンチマークできて嬉しいです。すでに優れたモデルの優れたファインチューンです」と彼はXに書きました。「長いコンテキストでのワンショットリクエストで優れており、MOE(mixture of experts)アーキテクチャのおかげで信じられないほど高速に実行されます。」

小型のE4Bバリアントは、14のコアコンピテンステスト(命令追従、コーディング、数学、マルチステップ推論、翻訳、安全性、キャッシング)すべてに合格し、30Kおよび60Kトークンでの12の長いコンテキストテストすべてをクリアしました。needle-in-haystack検索では、YaRN 8× RoPEスケーリングによる100万トークンでのストレッチテストを含む13のプローブすべてに合格しました。

26Bはネイティブで131Kコンテキストまで拡張し、YaRNで524Kまで拡張します。Hesslingもこれをストレステストしました:「524kの拡張コンテキストまで、私のシンプルなneedle-in-haystackテストも完璧にクリアしました!」

エッジハードウェアでは、E4Bは本当に高速です。Jackrongは、iPhone 17 Pro Maxで45~60トークン/秒、MacBook Air M3/M4でMLX経由で90~120トークン/秒を報告しています。26B MoEアーキテクチャは、ユニファイドメモリシステムまたは10GB未満のVRAMを持つGPUで優雅にオフロードすることを意味します。HesslingはこれをVRAM不足セットアップのデイリードライバー推奨と呼びました。

両方のモデルはGGUFフォーマットで利用可能です。つまり、設定なしでLM Studioまたはllama.cppに直接ドロップできます。完全なトレーニングコードとステップバイステップのファインチューニングガイドは、JackrongのGitHubにあります。Qwopusで使用したのと同じパイプライン、同じUnslothとLoRAセットアップで、Colabで再現可能です。

Gemopusには荒削りな部分がないわけではありません。ツール呼び出しは、llama.cppとLM StudioのGemma 4シリーズ全体で壊れたままです。呼び出しの失敗、フォーマットの不一致、ループなどがあります。したがって、ワークフローが外部ツールを使用するエージェントに依存している場合、これはまだあなたのモデルではありません。Jackrong自身、これを「完全に本番環境に対応したソリューションというよりも、エンジニアリング探求のリファレンス」と呼んでおり、実際のワークロードにもっと安定したものが必要な人には、自身のQwopus 3.5シリーズを推奨しています。

また、Jackrongは意図的に攻撃的なClaudeスタイルのchain-of-thought蒸留を避けたため、QwopusほどOpus脳的に感じることは期待しないでください。これは見落としではなく、安定性のための意識的なトレードオフでした。

推論のためのGemmaファインチューニングをより深く掘り下げたい人のために、注目に値する別のコミュニティプロジェクトもあります:匿名開発者DJLougenによるOrnsteinです。これは同じ26B Gemma 4ベースを使用し、特定のサードパーティモデルの論理やスタイルに依存せずに推論チェーンの改善に特化しています。

正直な注意点が1つあります:Gemmaのトレーニングダイナミクスは、ファインチューナーにとってQwenよりも面倒です。損失の変動が大きく、ハイパーパラメータの感度が高くなります。Jackrong自身がそう言っています。本番ワークフローのためにより実戦でテストされたローカルモデルが必要な場合、彼のQwopus 3.5シリーズはより堅牢に検証されています。しかし、Opusスタイルの洗練されたアメリカンモデルが必要な場合、Gemopusは現在利用可能な最良のオプションです。より密度の高い31B Gemopusバリアントもパイプラインにあり、Hesslingは「間違いなく素晴らしい」とからかっています。

自分のハードウェアでローカルモデルを実行してみたい場合は、ローカルAIの始め方に関する私たちのガイドをチェックしてください。