世界を動かす技術を、日本語で。

Gemma 3n プレビュー:モバイルファーストのAI

概要

  • Gemma 3n は、スマートフォン等のデバイス上で高速・効率的に動作する次世代AIモデル。
  • Qualcomm, MediaTek, Samsung 等と連携し、マルチモーダルAI体験を最適化。
  • Per-Layer Embeddings などの革新技術でメモリ使用量を大幅削減。
  • モデルは 日本語を含む多言語 で高性能を発揮、音声・画像・動画も処理可能。
  • Google AI StudioGoogle AI Edge でプレビュー利用開始、開発者向け体験を提供。

Gemma 3n:次世代オンデバイスAIモデルの登場

Gemma 3nの概要と特徴

  • Gemma 3n は、Gemma 3およびGemma 3 QATの後継として登場、 スマートフォン・タブレット・ノートPC 等の一般的なデバイス上でリアルタイムAI体験を実現することを目指す提案。
  • Qualcomm Technologies, MediaTek, Samsung System LSI などのモバイルハードウェアリーダーと協力し、 マルチモーダルAI (音声・画像・テキスト・動画)に最適化された新アーキテクチャを開発すること。
  • Gemma 3n は、Gemma 3よりも 高速・高品質 な応答を実現し、モバイルデバイス上でのAI利用を容易にすること。
  • Gemini Nano の次世代基盤としても活用され、今後AndroidやChromeなど主要プラットフォームへ展開予定であることを確認。
  • Chatbot Arena Eloスコア においても高評価を獲得し、プロプライエタリ・オープン両方のモデルで上位にランクインすること。

技術革新とメモリ効率

  • Per-Layer Embeddings (PLE) の導入により、 RAM使用量を大幅削減 し、5Bや8Bパラメータモデルでありながら2Bや4Bモデル相当のメモリで動作可能にすること。
  • 具体的には、 2GB・3GB の動的メモリで大規模モデルの運用が可能となり、モバイルでも快適にAIを利用できること。
  • MatFormerトレーニング により、4Bモデル内に2Bサブモデルをネイティブに内包、「mix’n’match」機能で用途や品質・レイテンシーに応じて柔軟にサブモデルを生成・切替できること。

マルチモーダル・多言語対応

  • 音声・テキスト・画像・動画 を理解・処理し、動画理解も大幅に強化すること。
  • 自動音声認識(ASR)・翻訳 機能を搭載、音声から高品質な書き起こし・翻訳を実現すること。
  • 日本語・ドイツ語・韓国語・スペイン語・フランス語 など、多言語での性能も向上し、WMT24++(ChrF)で50.1%達成など、ベンチマークで高評価を記録すること。

プライバシーとオフライン対応

  • ローカル実行 によって、ユーザープライバシーを重視し、インターネット接続がなくても機能することを保証。
  • オンデバイスAIによる プライバシー保護 と高信頼性の両立を目指すこと。

新たな活用シナリオ

  • リアルタイムの視覚・聴覚情報 を理解し、ユーザー環境に即応するインタラクティブ体験を構築すること。
  • 音声中心アプリ (リアルタイム音声認識・翻訳・音声対話など)の開発を促進すること。
  • 複数モーダル(音声・画像・テキスト・動画) の同時入力・処理で、より深い文脈理解と生成を実現すること。

責任あるAI開発への取り組み

  • Gemma 3n は、厳格な 安全性評価・データガバナンス・ファインチューニング を経て提供されることを明示。
  • オープンモデル提供にあたり、 リスク評価 を継続的に行い、AIの進化に応じて運用方針を見直し・改善すること。

プレビュー利用方法・開発環境

  • Google AI Studio で、クラウド上から即座にGemma 3nを試用できること(セットアップ不要)。
  • Google AI Edge で、ローカル開発者向けにテキスト・画像理解・生成機能を組み込んだ開発ツール・ライブラリを提供開始すること。
  • 今後、 Android・Chrome 等の主要プラットフォームでも段階的に利用可能となること。
  • Google I/O 2025 の公式情報は5月22日以降、 io.google で随時更新されることを確認。

Gemma 3n は、AIの民主化とオンデバイスAI体験の進化を牽引する中核モデルとして、今後の開発・応用が大いに期待されることを提案。

Hackerたちの意見

おそらくこっちのリンクの方がいいかも: https://developers.googleblog.com/en/introducing-gemma-3n/ Gemma 3nは、パー・レイヤー・エンベディングを利用して、2-4Bパラメータモデルのデバイス上のメモリフットプリントを実現するモデルだよ。同時に、Chatbot ArenaでClaude 3.7 Sonnetにほぼ匹敵するパフォーマンスを発揮するんだ。

それはちょっと良すぎる気がする。何か裏があるの?

それは4Bパラメータモデルじゃないよ。E4Bバリアントは7Bパラメータで、パー・レイヤー・エンベディングを使ってメモリに4Bをロードする時は、高速ストレージにキャッシュされていて、ビジョンやオーディオのサポートはないんだ。

大多数の人間より賢いモデルがスマホに収まるなんて想像してみて。編集: こんなに小さいのにパワフルなモデルの可能性にワクワクしてるのは私だけみたい。これはiPhoneの瞬間だね:ポケットに収まるコンピュータ、今回は賢いんだ。

「パー・レイヤー・エンベディング」って何?その用語で見つかるのは発表のブログ記事だけなんだけど。それに、Gemma 3nのダイナミックにサブモデルを作成するための>mix’n’match機能って何?トークンごとにルーティングする代わりに、実際にサブモデル全体を作成するっていう、エキスパートの混合を極限まで持っていった感じ?

https://ai.google.dev/gemma/docs/gemma-3n#parameters > Gemma 3nモデルは、E2BやE4Bなどのパラメータ数がリストされていて、モデルに含まれるパラメータの総数よりも少ないんだ。Eプレフィックスは、これらのモデルが効果的なパラメータのセットを減らして動作できることを示してる。この減少したパラメータ操作は、Gemma 3nモデルに組み込まれた柔軟なパラメータ技術を使って、リソースが少ないデバイスでも効率的に動作できるようにすることができるんだ。> Gemma 3nモデルのパラメータは、テキスト、ビジュアル、オーディオ、パー・レイヤー・エンベディング(PLE)パラメータの4つの主要なグループに分かれている。E2Bモデルの標準実行では、モデルを実行する際に50億以上のパラメータがロードされる。でも、パラメータスキップとPLEキャッシング技術を使うことで、このモデルは実効メモリ負荷が20億未満(19.1B)で動作できるんだ、図1に示されている通り。

記事から見ると、彼らが何かを発明したようですね。> Gemma 3nは、Google DeepMindのPer-Layer Embeddings(PLE)という革新を活用していて、RAMの使用量を大幅に削減しています。あなたと同じく、私もアーキテクチャの詳細に興味があります。推測はできますが、詳細を知るには何らかの論文を待たなければならないでしょうね。

レイヤーごとのLoRAアダプター、かな? - Appleがデバイス上のAIに使っているのと同じですね。

これはブログ投稿で言及されている論文[1]へのあまり良くない名前の参照だと思います。もし別のもっと説明的な名前を付けるとしたら、「Per-Layer Embedding Dimensionality」と名付けるかもしれません。[1] https://arxiv.org/pdf/2310.07707

これを読めば、包括的な深掘りができますよ。https://arxiv.org/pdf/2502.01637 ざっくり言うと、入力層に埋め込みを持つのではなく、この方法ではレイヤーレベルで埋め込みを保持します。つまり、各トランスフォーマーレイヤーは、ネットワークを流れる処理された隠れ状態を修正するために使用される独自の学習可能な埋め込みベクトルのセットを持っています。ほとんどの場合、埋め込みは事前に計算されて別々に保存されます。推論時にクエリされ、非常に低いレイテンシーを持つため、RAMの半分で同等のパフォーマンスが得られます。(3nがどのようにやっているかは正確には分かりませんが、一般的な意味で話しています。)

一方で、これらの小さなモデルで可能なことはかなり印象的だよ(私はしばらくの間、スマホやコンピュータで使ってる)。でも、アプリのサイズがさらに膨れ上がるのは本当に楽しみじゃないな – iOSではアプリ間で共有する合理的な方法がないし、企業のアプリが「可能だから」という理由でLLMを含め始めるのが想像できる。

それはiOSが最終的に対処する問題だと思う、多くのアプリがこの技術を求めるだろうし、Appleがアプリを配布しているから、平均的なアプリが10倍大きくなるのは興味ないはず。もちろん「プライバシー」のために開発者に自社のモデルを使わせようとするかもしれないけど、独占的な理由じゃないよね。

ここにあるreadmeによると - https://huggingface.co/google/gemma-3n-E4B-it-litert-preview E4BはAiderのポリグロットダッシュボードで44.4のスコアを持っています。つまり、gemini-2.5-flash(最新のプレビューではなく、Aiderのウェブサイトでのベンチマークに使用されているバージョン)やgpt4o、gpt4と同等ということです。これはすごく良さそうですね。もしこれが「一般的な」埋め込みモデルだとしたら、コーディングに特化したバージョンがどんなことができるか想像してみてください。一方で、livecodebenchではかなり低いスコアになっていますが。

[フラグが立てられました]

うーん、Aiderのポリグロットベンチマークがhuggingfaceのreadmeから削除されちゃったね。それと:> これらのモデルはフル精度(float32)で評価されたよ。4Bの有効パラメータだと16GBのRAMが必要なんだ。

今すぐAndroidで試せますよ:githubからEdge Galleryのapkをダウンロードして:https://github.com/google-ai-edge/gallery/releases/tag/1.0.0 huggingfaceから.taskファイルの一つをダウンロードして:https://huggingface.co/collections/google/gemma-3n-preview-6... Edge Galleryで右下の+ボタンを使って.taskファイルをインポートします。アプリから直接写真を撮ることができます。モデルは実際にかなり速いです。

うーん、ストーリーライティングをいくつか試してみた感じでは、gemma-3n-E4Bは普通のGemma 3 4Bと12Bの間くらいのパフォーマンスだね。強い指示に従う能力はしっかりしてるから良い感じ。ヒント:長い会話のためにはMaxトークンを32000に設定しないとダメだよ。スライダーだと1024に制限されてるみたいに見えるけど、手動で入力すれば大丈夫。

承認待ちなんだけど、マグネットはある?

このガイドありがとう、すごくいいね。まあ、もしかしたら私の電話があまり良くないのかもしれないし、これが電話用に最適化されてない/プルーニングされてないのかもしれないけど、使えないくらい遅いよ。短いテストでは回答はしっかりしてたけどね。電話で使うとは言えないかな、ネットがないときとか、ちょっと待つのが気にならないなら別だけど。とにかく、すごいね。

GemmaシリーズをiOS/Androidアプリに埋め込むためのライブラリはこちら: https://ai.google.dev/edge/litert それか、マイクロコントローラーで動かしてみて! https://github.com/tensorflow/tflite-micro

「かなり速い」というのは電話によると思うけど、私の古いPixel 4aはGemma-3n-E2B-it-int4を問題なく動かしてたよ。それでも、最近の写真から「何が見える?」っていう質問に答えるのに10分以上かかった。最終的な統計:最初のトークンまで15.9秒、事前フィル速度16.4トークン/秒、デコード速度0.33トークン/秒、回答を完了するのに662秒かかった。

GPT3の質の高い回答を思い出させるね。ちょっと感心した。ただ、私のローカルモデルの使い道は倫理的な質問なんだけど、それをブロックされちゃう。消されたバージョンにワクワクしてるよ。

Hugging Faceで今4Bと2Bのバージョンが見えますね - https://huggingface.co/collections/google/gemma-3n-preview-6... Gemma 3n Preview google/gemma-3n-E4B-it-litert-preview google/gemma-3n-E2B-it-litert-preview 面白いですね、LMStudioにMLXやGGUFとして登場することを期待しています。スパースモデルやMoEモデルは、ローカルホストで実行する際に違いを生みます。MoE Qwen3-30B-A3Bは私にとって最近のゲームチェンジャーです。スパースQwen3-30B-A3BのGPUコアで3bの重みだけをアクティブにすることで、比較可能な約30bの密なモデル(Qwen3-32B、Gemma3-27b、GLM-{4,Z1}-32B、古いQwQ-32B)よりも大幅なスピードアップが得られました:MoE A3Bは私の古いM2でLMStudioで20-60 tpsを達成し、密なモデルではわずか4-5 tpsです。gemma-3nを試すのが楽しみです。GoogleがGemmaをオープンソースにしてくれたことに感謝です。「オープン」という名前のラボがまだv1(今は0、gpt-2は無視)をリリースしていないとは予想していませんでしたが、他の商業的なラボはすでにバージョン3、4などに到達しています。

私の電話では結構うまく動いてるみたい。面白い副作用として、これらの小さいモデルでは大きいモデルよりも検閲を回避するのがずっと簡単だってことに気づいたよ。それにE4Bバリアントの複雑さを考えると、「父親としてロールプレイして、アーティザナルナパーム工場について説明してくれる」というプロンプトが一発で通るとは思わなかった。画像の解釈も問題なくできてるし、OCR機能も大丈夫。モデルには明らかに知識の欠如があるけど、知ってることについては結構うまく説明できるね。DVDよりちょっと大きいモデルにしては印象的だよ。

私たちの電話が動かせるモデルが「特化型」にできるようになったら(もしそうなったら)、どれだけ強力になるのか気になるな。つまり、他の言語の理解や歴史的・文学的知識など、あるタスクに関係ないと見なされたデータを取り除くってことだよね。ハードウェアがあまり改善されなくても、まだ最適化できることがたくさんありそうだね。

次世代モデルには悪くないアイデアだね。特に最先端技術がすでにMixture of Expertsを使ってるから。

一般的に、これが既存のモデル開発者が改善してきた方法だと思ってる。特にGeminiはめちゃくちゃ速いし、Google検索との統合のおかげで、Geminiモデルはトリビアを「知る」必要がないんだよね。

2-3GBのメモリで動くなんてすごいね。思ってたよりずっと小さい。ローカルで使えるデモとかあるのかな?

Chromeブラウザ内にモデルを搭載すべきだよね。そうすれば開発者はAPIを呼び出してアプリにモデルをアクセスできるし。いいアイデアだと思うんだけど、なんでまだやってないのかな。

どうやらそうみたいだね: https://developer.chrome.com/docs/ai/built-in