世界を動かす技術を、日本語で。

Googleが「Gemma 4」オープンモデルを発表

概要

  • Gemma 4 は、 Gemini 3 の研究成果を活用した高性能オープンAIモデル
  • パラメータごとの知能効率 が飛躍的に向上
  • モバイル・IoT端末 でも動作可能な最先端知能
  • エージェント構築マルチモーダル推論 など多彩な機能
  • Gemmaコミュニティ 「Gemmaverse」で事例共有と開発促進

Gemma 4:最先端オープンAIモデルの特徴

  • Gemma 4 は、 Gemini 3 の研究・技術をベースに開発された高知能AIモデル
  • パラメータごとの知能効率 を最大化し、少ない計算資源でも高精度な推論を実現
  • 計算・メモリ効率 に優れ、パーソナルコンピュータやエッジデバイスでも利用可能
  • モバイル端末やIoTデバイス 向けにも新たな知能レベルを提供
  • フロンティア知能 を、従来のクラウド依存から個人端末へ拡張

主な機能と性能

  • Agentic workflows :アプリ操作やタスク完了を自律的に行うエージェントの構築が可能
    • Function calling のネイティブ対応による柔軟な自動化
  • マルチモーダル推論 :音声・画像など多様なデータを理解し、リッチなマルチモーダル体験を実現
  • 140言語対応 :単なる翻訳を超え、文化的文脈も理解できる多言語サポート
  • ファインチューニング :好みのフレームワーク・手法でタスク特化型の学習が可能
  • 効率的なアーキテクチャ :自前のハードウェア上でも効率的な開発・運用が可能

セーフティとコミュニティ

  • 安全性 :堅牢なセーフティ設計による安心利用
  • Gemmaverse :Gemmaモデル活用事例やコミュニティによる知見共有
    • 他ユーザーの事例探索 やノウハウ交換の場

ダウンロード・導入

  • 公式サイト よりモデルや資料のダウンロードが可能
  • 開発者向けリソース や導入ガイドの提供

Hackerたちの意見

思考や推論、マルチモーダル、ツール呼び出しについて。みんなが使えるように、https://huggingface.co/collections/unsloth/gemma-4 にいくつかのクオンツを作ったよ。めっちゃうまく動くから試してみて!興味がある人のためのガイドはこちら: https://unsloth.ai/docs/models/gemma-4 それと、temperatureは1.0、top_pは0.95、top_kは64、EOSは""を使ってね。"thought\n"も思考のトレースに使われるよ!

ちなみに、「Gemma 4を検索してダウンロード」ステップのスクリーンショットはqwen3.5用で、Unsloth Studioでgemma-4を検索したらGemma 3モデルしか表示されなかったよ。

ダニエル、これをよく聞くかもしれないけど、Unslothでやってることや、ハッカーニュースやredditでのコミュニケーションの仕方に本当に感謝してる。誰かがもう聞いたかもしれないけど、ちょっと気になってることがあって、どのオープンソースモデルが一番いいと思う?それと、AIトレーニングチーム(Qwen/Gemini/Kimi/GLM)の中で、Unslothチームと一番協力してて、仕事しやすいのはどれ?

スパムフィルタリングのベンチマークでこれをテストして、ベンチマークを取るのがめっちゃ楽しみ。gemma-3-27bはすごく強いモデルだったけど、その後gpt-oss:20bに抜かれた(こっちの方がずっと速かったし)。qwenモデルはいつもバラつきが多かったね。

スパムフィルタリングって、本当にもっといいモデルが必要なの?私の印象では、全体のゲームは最新のユーザー提供ラベルを持つことに基づいてると思うんだけど。

一番いいのは、これがApache 2.0だってこと(追記: ベースモデルもあるよ。Gemma3はファインチューニングに良かった)。サイズはE2BとE4B(gemma3nアーキテクチャに従って、モバイルに焦点を当ててる)で、26BA4 MoEと31B密なモデルもある。モバイル版は音声入力があって(だから、プライバシー重視の翻訳アプリに使えるかも)、31Bはエージェント系のことに強いみたい。26BA4はその中間に位置してて、VRAMのフットプリントは似てるけど、推論はずっと速い。

チャートのメインベンチマークとしてELOスコアを使うのはすごく誤解を招く。大きな密なGemma 4モデルは、ほとんどのベンチマークでQwen 3.5 27B密なモデルに追いついてないみたい。これが一番大事なことだよね。小さい2B / 4Bモデルは面白いし、特化したものよりもASRモデルとして優れてる可能性がある(パフォーマンスだけじゃなくて、llama.cpp / MLXやフロントエンドを通じて簡単に提供できるから)。視覚モデルでもあるから、「速い」OCRにも興味深い。ただ、それ以外はリリースがちょっと残念だな。

公開ベンチマークは簡単に偽造できるよね。Lmarenaはちょっと偽造しにくくて、人間による評価がある。彼らが一つの指標に過度に焦点を当てるのは誤解を招くけど、公開ベンチマークが唯一重要なものではないよ。私はLmarenaのスコアやプライベートベンチマークの方が重要だと思ってる。

やっと待ちに待った時が来た。1回か2回のイテレーションで、自己ホスティングの時に言語モデルが僕のよくあるニーズを満たしてくれるって言えるようになるよ。Gemmaチームに感謝!

自己ホスティングはどんなタスクに使ってるの?ちょっと気になってるんだけど、シーンは見てるけど自己ホスティングは試してないんだよね。

強く同意する。Gemma3:27bとQwen3-vl:30b-a3bは、私のお気に入りのローカルLLMの中で、翻訳、分類、カテゴライズの作業をほとんど全部こなしてくれる。

Gemma 4とQwen 3.5のベンチマーク比較、各自のHugging Faceモデルカードからまとめたもの: | モデル | MMLUP | GPQA | LCB | ELO | TAU2 | MMMLU | HLE-n | HLE-t | |----------------|-------|-------|-------|------|-------|-------|-------|-------| | G4 31B | 85.2% | 84.3% | 80.0% | 2150 | 76.9% | 88.4% | 19.5% | 26.5% | | G4 26B A4B | 82.6% | 82.3% | 77.1% | 1718 | 68.2% | 86.3% | 8.7% | 17.2% | | G4 E4B | 69.4% | 58.6% | 52.0% | 940 | 42.2% | 76.6% | - | - | | G4 E2B | 60.0% | 43.4% | 44.0% | 633 | 24.5% | 67.4% | - | - | | G3 27B no-T | 67.6% | 42.4% | 29.1% | 110 | 16.2% | 70.7% | - | - | | GPT-5-mini | 83.7% | 82.8% | 80.5% | 2160 | 69.8% | 86.2% | 19.4% | 35.8% | | GPT-OSS-120B | 80.8% | 80.1% | 82.7% | 2157 | -- | 78.2% | 14.9% | 19.0% | | Q3-235B-A22B | 84.4% | 81.1% | 75.1% | 2146 | 58.5% | 83.4% | 18.2% | -- | | Q3.5-122B-A10B | 86.7% | 86.6% | 78.9% | 2100 | 79.5% | 86.7% | 25.3% | 47.5% | | Q3.5-27B | 86.1% | 85.5% | 80.7% | 1899 | 79.0% | 85.9% | 24.3% | 48.5% | | Q3.5-35B-A3B | 85.3% | 84.2% | 74.6% | 2028 | 81.2% | 85.2% | 22.4% | 47.4% |

MMLUP: MMLU-Pro GPQA: GPQA Diamond LCB: LiveCodeBench v6 ELO: Codeforces ELO TAU2: TAU2-Bench MMMLU: MMMLU HLE-n: Humanity's Last Exam (no tools / CoT) HLE-t: Humanity's Last Exam (with search / tool) no-T: no think

検索を使っても、基本的な植物のベンチマークで2.5/5のスコアだった。平均的な人が同じような内容を書くにはもっと時間がかかるだろうけど、検索エンジンがあれば50%以下のハルシネーションで済むと思う。

明日、huggingfaceでgemma4-31b-it-claude-opus-4-6-distilled-q4-k-mが出るのが待ちきれない!

これをローカルで、または高価なリモート開発マシン(VMで、API呼び出しを使わずに)で実行する現実的な方法って何?

GemmaとGemini、どっちがいい?私はカジュアルなAIチャットボットユーザーだから、無料で一番良い制限とバージョンを提供してくれるものを使ってるよ。