世界を動かす技術を、日本語で。

Gemma 4 QATモデル:モバイルおよびノートパソコンの効率向上のための圧縮最適化

概要

  • Gemma 4 の新しいQAT(Quantization-Aware Training)チェックポイント公開
  • モバイルや一般GPU での動作効率向上
  • Q4_0 や独自モバイル量子化フォーマット対応
  • VRAM・ストレージ削減 に成功
  • 利用開始のための ツール連携 も充実

Gemma 4:QATによる効率化と新フォーマット

  • Gemma 4 は継続的な機能拡張を実施
    • Multi-Token Prediction(MTP) による推論高速化
    • 12Bモデル 追加でモデルラインナップを拡充
  • Quantization-Aware Training(QAT) による新チェックポイント公開
    • 量子化を訓練中にシミュレートし、圧縮時の品質劣化を最小化
    • Q4_0 量子化形式と、モバイル向け独自量子化形式を提供
    • モバイル用フォーマットで Gemma 4 E2B のメモリフットプリントを 1GB に削減
  • 量子化技術 で消費メモリ削減とデコード速度向上を実現
    • 従来のPTQ(Post-Training Quantization)よりも高い品質を維持
    • QATは訓練中から量子化を組み込み、PTQ以上の品質を達成

モバイル・エッジ向け量子化最適化

  • モバイルプロセッサ 向けにカスタム量子化スキーマを設計
    • Static activations :スケーリング情報を事前計算し、リアルタイム演算負荷を軽減
    • Channel-wise quantization :データ圧縮をモバイルアクセラレータ構造に最適化
    • Targeted 2-bit quantization :トークン生成部を2ビットに圧縮、推論層は高精度維持
    • EmbeddingとKVキャッシュ最適化 :語彙リストと短期記憶領域を圧縮し、長時間利用時のメモリ消費を削減
  • 不要なモダリティ (例:音声・画像エンコーダ)を除外可能
    • テキスト専用モデル(Per-Layer Embeddingsなし)は 1GB未満 で動作

利用開始とツール連携

  • Hugging Face でQ4_0・モバイル量子化モデルの重みを配布
    • GGUF形式 はllama.cppと互換
    • 圧縮テンソル はvLLM用
    • その他は未量子化チェックポイントを提供、Q4_0対応形式へ変換可能
  • ドキュメント でQATチェックポイントの導入・運用方法を案内
  • ローカルデスクトップ での簡単なダウンロード・実行
    • llama.cpp、Ollama、LM StudioなどのUI対応
  • オンデバイス展開 も容易
    • Googleの LiteRT-LMランタイムTransformers.js で軽量動作
  • 開発者向けツール との連携強化
    • SGLang、vLLM、Apple Silicon向けMLX、MTP QATチェックポイントで高速化維持
    • Hugging Face TransformersやUnslothで直接ファインチューニングも可能

まとめ

  • Gemma 4 はQATと新量子化スキーマにより、 高品質を維持しつつ軽量化 を実現
  • モバイル・エッジ用途 にも最適化され、 幅広い開発ツール と連携
  • 今すぐローカル環境でGemma 4を体験・活用 可能

Hackerたちの意見

Gemma 4 12Bをリリースしてから、数日後にQ4_0のGemma 4 12Bを出すのはちょっと微妙だね。この記事で、Q4_0のGemma 4 12BのVRAM使用量が6.7GBって書いてあるのは良いけど、これならGoogleの主張通り16GBでも余裕で収まるってことになるね。ただ、確認したところ、量子化されたバージョンだけがそうなるみたい。関連して、Googleが新しく出したmacOS用のEdge Galleryでは、Gemma 4 12Bは16GBのマシンでもRAMが足りないからサポート外って明記されてるけど、ここでのVRAM使用量を考えるとQ4_0バージョンは確実に収まるはずだから、Googleには修正してほしいな。

何言ってるのかよく分からないけど、4QとQAT 4Qは違うよ。

なんで複数のリリースが微妙だと思うのか分からないな。モデルやバリエーションは準備ができたらリリースする方がいいよ。一気に全部準備してから出す必要はないし。Q4_0は量子化に気を使ったトレーニングチェックポイントなんだから、単なるGemma 4 12Bの量子化じゃないよ。

Gemma 4 E2B Unsloth 4Qでいい感じだったよ! https://youtube.com/shorts/XLsAnz5aAAI E4Bモデルは俺のスマホのTPUに収まらないからRAMにスワップされちゃうけど、QATバージョンは精度が上がるからいいね!

どうやってTPUの上でRAMにスワップするか知ってる?自分のPixelでこれを試してみたいな。

Unslothのコレクションもあるよ [0]、彼らの結果もね [1]。BF16モデルと比べて、ほぼ100%の精度に近づけるみたいで、Unslothの量子化は元のGoogleのQATよりも良いって記事に書いてあった。個人的には、ウェブ検索と構造化されたJSON出力のために2BモデルをUnsloth StudioとそのAPIで使ってるけど、スマホに埋め込んでもすごくうまく動いてるよ。[0] https://huggingface.co/collections/unsloth/gemma-4-qat [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

あのチャートが何を示してるか誤解してるよ。それはBF16 QAT Q4_0を示してるんであって、BF16の通常版じゃないから。つまり、Googleはモデルを4ビットに量子化して、その結果をBF16フォーマットで保存して、下流のパッカーとの互換性や便利さを考えてるんだ。小さい8ビットの数字をフル32ビット整数に保存するようなもんだね。だから、未量子化のBF16の100%には近くないよ。誰か、なんでGoogleが4ビットのQAT Q4_0をリリースしたのに、BF16 QAT Q4_0の100%にならないのか説明できる人いる?ビットをいじるだけで、これら二つのパッキングの間でのさらなる量子化はないはずなのに。Unslothは「格子の整合性」が問題だって言ってるけど、正直言って、GoogleやQwenみたいな小さなモデルメーカーが新しいモデルをリリースする時に、BF16のベンチマークだけを見せるのが嫌だな。みんなが実際に使ってるのは4-8ビットの量子化なのに、4ビットと6ビットでどれだけ損失があるのか理解するのが難しいよね。

ちょっと混乱してるんだけど、unslothのモデルは約600MBで、Googleのは7GBなの?

これらの量子化されたモデルは、より大きな通常のGemma 4モデルのドラフターとして使うと、MTP(マルチトークン予測)をかなり速くすることができるのかな?

GoogleはGemma 4用の特化型ドラフターをリリースしたよ。

Macでこんなのをローカルで動かしてみたよ: uvx litert-lm run
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm
gemma-4-E2B-it.litertlm
--backend=gpu
--prompt="自転車に乗ったペリカンのSVGを生成して" 初めてこれを実行すると、~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lmに3.2GBがダウンロードされるよ。 音声や画像の入力も扱えるから、3.2GBのモデルにしてはかなりすごい。 画像の場合は: uvx litert-lm run
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm
gemma-4-E2B-it.litertlm
--backend=gpu --vision-backend gpu
--attachment image.jpg --prompt describe 音声の場合は: uvx litert-lm run
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm
gemma-4-E2B-it.litertlm
--backend=gpu --audio-backend cpu
--attachment audio.wav --prompt transcribe (ペリカンはイマイチだけど、3.2GBのファイルでちゃんとSVGを出力できるのはすごいと思うよ: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362... )

それに、テキストのみの0.8GBバージョンもあるし、ほんとにクレイジーだね。今はデバイス上で基本的なリアルタイムの会話ができるようになったし、映像と音声にも対応してる。

誰かが26B A4B 4 QAT用のMTPレイヤーを生成したら、5年物のGPUで歌い上げるよ。

Googleはもうやったよ。 https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-un...

8GBのVRAMで12Bを動かせるのはすごいね。小さなローカルモデルがこんなに進化するなんて、驚きだよ。

今週だけでGemmaエコシステムがどれだけ進化したかに感動してる。Gemma 12B、マルチトークン予測、公式の量子化がリリースされた。Googleがこのリリースの連続に本気で取り組んでいる感じがして、すごくワクワクしてるよ!

WWDCの前の金曜日だね。AppleがGoogleのモデルを基にした「改善された」Siriを発表する予定なんだ(今のところはロックされたパートナーシップ)。偶然かもしれないけど、来週Appleが発表するためにGoogleがモデルをリリースするってこともあり得るのかな?知識はないけど、ただの推測だよ。