Gemma 4 12B: 統一されたエンコーダーフリーのマルチモーダルモデル

2026年6月4日原文(blog.google)

概要

Gemma 4 12B は高性能なマルチモーダルAIをノートPCで動作可能にする新モデル
音声入力 を標準搭載した初のミッドサイズモデル
16GB VRAM でローカル動作が可能な省メモリ設計
Apache 2.0ライセンス で公開、開発者向けエコシステム対応
先進的推論性能 とエージェント開発支援機能を搭載

Gemma 4 12B：ノートPC向けマルチモーダルAIの新基準

Google DeepMind が開発した最新モデル、Gemma 4 12Bの発表
E4B（エッジ向け） と 26B Mixture of Experts（MoE） の中間モデルとして位置付け
150万回以上のダウンロード実績、開発コミュニティによる多様な応用例
音声入力を標準搭載 した初のミッドサイズモデル
小型化・省メモリ 設計により、16GBのVRAMまたはユニファイドメモリでローカル動作
Apache 2.0ライセンス で公開、幅広い開発者エコシステムに対応

Gemma 4 12Bの主な特徴

統一型アーキテクチャ
- マルチモーダルエンコーダー非搭載
- 画像・音声入力が 直接LLMバックボーン に流入
先進的推論力
- 26Bモデルに迫るベンチマーク性能
- マルチステップ推論やエージェントワークフローを実現
ドラフター対応
- Multi-Token Prediction (MTP) ドラフター搭載で低遅延を実現
オープン&アクセシブル
- 開発者向けドキュメントやサポート体制
- Hugging Face や Kaggle でチェックポイント提供

高度なエージェントをローカルで実行

26B MoEモデルに迫る性能 を半分以下のメモリフットプリントで実現
一般的なノートPC（16GB RAM）で マルチモーダル＆エージェント体験 を提供

統一アーキテクチャの詳細

画像入力
- 従来のビジョンエンコーダーを排除
- 軽量な埋め込みモジュール（行列積、位置埋め込み、正規化）で処理
- LLMバックボーン が視覚処理を担当
音声入力
- オーディオエンコーダーを完全に排除
- 生音声信号を テキストトークンと同じ次元空間 に直接射影

開発者向け導入方法

LM Studio、Ollama、Google AI Edge Gallery App などで即体験
Hugging Face や Kaggle から重みデータをダウンロード可能
Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM などでローカル推論パイプライン構築
Unsloth による効率的なファインチューニング
Skills Repository の公開
- Gemmaモデル専用のスキルライブラリ
- エージェント開発支援

柔軟なデプロイ方法

Google Cloud でエンドポイント展開
Gemini Enterprise Agent Platform Model Garden、Cloud Run、GKE など多様な運用方法に対応

Hackerたちの意見

ここでの大きな話題は、エンコーダーなしの部分で、まだ完全には理解できてないんだ。

「Vision: Gemma 4のビジョンエンコーダーを、単一の行列乗算、位置埋め込み、正規化からなる軽量の埋め込みモジュールに置き換えました。」これって技術的にはエンコーディングだよね？SigLIPみたいな専用モデルを使ってないだけで。開発者ガイドによると、35M層のままなんだけど、これが十分に堅牢か気になるな。「16GBのRAMを搭載した一般的なノートパソコンでローカルに実行できるほど小さく、あなたのマシンで強力なマルチモーダルでエージェント的な体験を解放します。」量子化が関わってると思うけど、品質の損失があるからその発言はちょっと誤解を招くと思う。

└

量子化12bは、パラメータあたり8ビットで12G（基本的にはロスレス）、4ビットで6G（一般的に受け入れられている「かなり近い」レベル）を意味する。悪くない？でも、量子化について考える前にベースモデルのパフォーマンスがどれくらいかはまだ不明だね。

└

一般的な意味では「エンコーディング」だと思うけど、彼らが言ってるのは「エンコーダー」ニューラルネットワークがないことを指してるんじゃないかな。

└

実際、エンコーダーとは違って、潜在空間がその初期層で訓練されてるから、まさにそのスパースな密度に対して「何をすべきか」を理解してるんだ。Gemma4-12bをFlux2で使ってるけど、視覚入力に対する推論能力はかなり良いよ。とはいえ、各モデルにはそれぞれの良さがあるから、使う人によって違うかもしれないけど、全体的にはQwenと同じくらいしっかりしてる。ただ、もっと進んだアーキテクチャを持ってるって感じ。

└

一つの副作用として、モデルをllama.cppなどで使うときに、別の.mmprojファイル（マルチモーダルプロジェクションエンコーダー）がもう必要なくなるんだ。

└

その開発者ページの中には、エンコーダーフリーアーキテクチャの良い説明があるよ。https://newsletter.maartengrootendorst.com/p/a-visual-guide-...

└

エンコーダーフリーは、SBCなどで動かすのに大きいね。VLMをオールマイティなビジョンモデルとして使う場合、エンコーディング時間が生成時間のかなりの部分を占めることが多いから。

└

オーディオの方がさらに面白いね。位置埋め込みを完全に取り除いて、LLMの入力次元に合わせるために単一の線形変換を行ってるだけみたい。「オーディオ：オーディオ処理をさらに簡素化しました。オーディオエンコーダーを完全に取り除き、生のオーディオ信号をテキストトークンと同じ次元空間に投影しました。」

└

これは基本的に早期の融合って感じだね。FAIRは2年前にこれをやってたし。https://arxiv.org/abs/2405.09818 それ以来、こういうのが出るのを待ってたんだ。ちょっとイライラするのは、カメレオンも同じ原理に基づいてマルチモーダルだったのに、今回のモデルは入力だけなんだよね…（マルチモーダル出力なしで事前学習をどうやったのか気になるな。画像出力をサポートする代わりに切り捨てたのかな）。

└

エンコーダーなしのVLMには多くの前例があるよ。約2年前のEVEシリーズのモデルを特に覚えてる。https://github.com/baaivision/EVE

└

埋め込みモデルでできることはまだまだ底を打ってないと思うよ。これらの小さなモデルは、8ビット整数の最適化が施された現代のCPUでめちゃくちゃ速いからね。俺のアプリでは、普通のハードウェアで何億もの場所についてかなり明確なことが言えるんだ。

わぁ、Googleはオープンウェイトモデルをリリースする面で新しいプレLlama 4のMetaになってきてるね。

Hacker Newsで議論の続きを見る

ハクソク