Googleが「Gemma 4」オープンモデルを発表

2026年4月3日原文(deepmind.google)

概要

Gemma 4 は、 Gemini 3 の研究成果を活用した高性能オープンAIモデル
パラメータごとの知能効率 が飛躍的に向上
モバイル・IoT端末 でも動作可能な最先端知能
エージェント構築 や マルチモーダル推論 など多彩な機能
Gemmaコミュニティ 「Gemmaverse」で事例共有と開発促進

Gemma 4：最先端オープンAIモデルの特徴

Gemma 4 は、 Gemini 3 の研究・技術をベースに開発された高知能AIモデル
パラメータごとの知能効率 を最大化し、少ない計算資源でも高精度な推論を実現
計算・メモリ効率 に優れ、パーソナルコンピュータやエッジデバイスでも利用可能
モバイル端末やIoTデバイス 向けにも新たな知能レベルを提供
フロンティア知能 を、従来のクラウド依存から個人端末へ拡張

主な機能と性能

Agentic workflows ：アプリ操作やタスク完了を自律的に行うエージェントの構築が可能
- Function calling のネイティブ対応による柔軟な自動化
マルチモーダル推論 ：音声・画像など多様なデータを理解し、リッチなマルチモーダル体験を実現
140言語対応 ：単なる翻訳を超え、文化的文脈も理解できる多言語サポート
ファインチューニング ：好みのフレームワーク・手法でタスク特化型の学習が可能
効率的なアーキテクチャ ：自前のハードウェア上でも効率的な開発・運用が可能

セーフティとコミュニティ

安全性 ：堅牢なセーフティ設計による安心利用
Gemmaverse ：Gemmaモデル活用事例やコミュニティによる知見共有
- 他ユーザーの事例探索 やノウハウ交換の場

ダウンロード・導入

公式サイト よりモデルや資料のダウンロードが可能
開発者向けリソース や導入ガイドの提供

Hackerたちの意見

思考や推論、マルチモーダル、ツール呼び出しについて。みんなが使えるように、https://huggingface.co/collections/unsloth/gemma-4 にいくつかのクオンツを作ったよ。めっちゃうまく動くから試してみて！興味がある人のためのガイドはこちら: https://unsloth.ai/docs/models/gemma-4 それと、temperatureは1.0、top_pは0.95、top_kは64、EOSは""を使ってね。"thought\n"も思考のトレースに使われるよ！

└

ちなみに、「Gemma 4を検索してダウンロード」ステップのスクリーンショットはqwen3.5用で、Unsloth Studioでgemma-4を検索したらGemma 3モデルしか表示されなかったよ。

└

ダニエル、これをよく聞くかもしれないけど、Unslothでやってることや、ハッカーニュースやredditでのコミュニケーションの仕方に本当に感謝してる。誰かがもう聞いたかもしれないけど、ちょっと気になってることがあって、どのオープンソースモデルが一番いいと思う？それと、AIトレーニングチーム（Qwen/Gemini/Kimi/GLM）の中で、Unslothチームと一番協力してて、仕事しやすいのはどれ？

スパムフィルタリングのベンチマークでこれをテストして、ベンチマークを取るのがめっちゃ楽しみ。gemma-3-27bはすごく強いモデルだったけど、その後gpt-oss:20bに抜かれた（こっちの方がずっと速かったし）。qwenモデルはいつもバラつきが多かったね。

└

スパムフィルタリングって、本当にもっといいモデルが必要なの？私の印象では、全体のゲームは最新のユーザー提供ラベルを持つことに基づいてると思うんだけど。

一番いいのは、これがApache 2.0だってこと（追記: ベースモデルもあるよ。Gemma3はファインチューニングに良かった）。サイズはE2BとE4B（gemma3nアーキテクチャに従って、モバイルに焦点を当ててる）で、26BA4 MoEと31B密なモデルもある。モバイル版は音声入力があって（だから、プライバシー重視の翻訳アプリに使えるかも）、31Bはエージェント系のことに強いみたい。26BA4はその中間に位置してて、VRAMのフットプリントは似てるけど、推論はずっと速い。

チャートのメインベンチマークとしてELOスコアを使うのはすごく誤解を招く。大きな密なGemma 4モデルは、ほとんどのベンチマークでQwen 3.5 27B密なモデルに追いついてないみたい。これが一番大事なことだよね。小さい2B / 4Bモデルは面白いし、特化したものよりもASRモデルとして優れてる可能性がある（パフォーマンスだけじゃなくて、llama.cpp / MLXやフロントエンドを通じて簡単に提供できるから）。視覚モデルでもあるから、「速い」OCRにも興味深い。ただ、それ以外はリリースがちょっと残念だな。

└

公開ベンチマークは簡単に偽造できるよね。Lmarenaはちょっと偽造しにくくて、人間による評価がある。彼らが一つの指標に過度に焦点を当てるのは誤解を招くけど、公開ベンチマークが唯一重要なものではないよ。私はLmarenaのスコアやプライベートベンチマークの方が重要だと思ってる。

やっと待ちに待った時が来た。1回か2回のイテレーションで、自己ホスティングの時に言語モデルが僕のよくあるニーズを満たしてくれるって言えるようになるよ。Gemmaチームに感謝！

└

自己ホスティングはどんなタスクに使ってるの？ちょっと気になってるんだけど、シーンは見てるけど自己ホスティングは試してないんだよね。

└

強く同意する。Gemma3:27bとQwen3-vl:30b-a3bは、私のお気に入りのローカルLLMの中で、翻訳、分類、カテゴライズの作業をほとんど全部こなしてくれる。

Gemma 4とQwen 3.5のベンチマーク比較、各自のHugging Faceモデルカードからまとめたもの: | モデル | MMLUP | GPQA | LCB | ELO | TAU2 | MMMLU | HLE-n | HLE-t | |----------------|-------|-------|-------|------|-------|-------|-------|-------| | G4 31B | 85.2% | 84.3% | 80.0% | 2150 | 76.9% | 88.4% | 19.5% | 26.5% | | G4 26B A4B | 82.6% | 82.3% | 77.1% | 1718 | 68.2% | 86.3% | 8.7% | 17.2% | | G4 E4B | 69.4% | 58.6% | 52.0% | 940 | 42.2% | 76.6% | - | - | | G4 E2B | 60.0% | 43.4% | 44.0% | 633 | 24.5% | 67.4% | - | - | | G3 27B no-T | 67.6% | 42.4% | 29.1% | 110 | 16.2% | 70.7% | - | - | | GPT-5-mini | 83.7% | 82.8% | 80.5% | 2160 | 69.8% | 86.2% | 19.4% | 35.8% | | GPT-OSS-120B | 80.8% | 80.1% | 82.7% | 2157 | -- | 78.2% | 14.9% | 19.0% | | Q3-235B-A22B | 84.4% | 81.1% | 75.1% | 2146 | 58.5% | 83.4% | 18.2% | -- | | Q3.5-122B-A10B | 86.7% | 86.6% | 78.9% | 2100 | 79.5% | 86.7% | 25.3% | 47.5% | | Q3.5-27B | 86.1% | 85.5% | 80.7% | 1899 | 79.0% | 85.9% | 24.3% | 48.5% | | Q3.5-35B-A3B | 85.3% | 84.2% | 74.6% | 2028 | 81.2% | 85.2% | 22.4% | 47.4% |

MMLUP: MMLU-Pro GPQA: GPQA Diamond LCB: LiveCodeBench v6 ELO: Codeforces ELO TAU2: TAU2-Bench MMMLU: MMMLU HLE-n: Humanity's Last Exam (no tools / CoT) HLE-t: Humanity's Last Exam (with search / tool) no-T: no think

Hacker Newsで議論の続きを見る

ハクソク