Gemma 3n プレビュー：モバイルファーストのAI

2025年5月21日原文(developers.googleblog.com)

概要

Gemma 3n は、スマートフォン等のデバイス上で高速・効率的に動作する次世代AIモデル。
Qualcomm, MediaTek, Samsung 等と連携し、マルチモーダルAI体験を最適化。
Per-Layer Embeddings などの革新技術でメモリ使用量を大幅削減。
モデルは 日本語を含む多言語 で高性能を発揮、音声・画像・動画も処理可能。
Google AI Studio や Google AI Edge でプレビュー利用開始、開発者向け体験を提供。

Gemma 3n：次世代オンデバイスAIモデルの登場

Gemma 3nの概要と特徴

Gemma 3n は、Gemma 3およびGemma 3 QATの後継として登場、 スマートフォン・タブレット・ノートPC 等の一般的なデバイス上でリアルタイムAI体験を実現することを目指す提案。
Qualcomm Technologies, MediaTek, Samsung System LSI などのモバイルハードウェアリーダーと協力し、 マルチモーダルAI （音声・画像・テキスト・動画）に最適化された新アーキテクチャを開発すること。
Gemma 3n は、Gemma 3よりも 高速・高品質 な応答を実現し、モバイルデバイス上でのAI利用を容易にすること。
Gemini Nano の次世代基盤としても活用され、今後AndroidやChromeなど主要プラットフォームへ展開予定であることを確認。
Chatbot Arena Eloスコア においても高評価を獲得し、プロプライエタリ・オープン両方のモデルで上位にランクインすること。

技術革新とメモリ効率

Per-Layer Embeddings (PLE) の導入により、 RAM使用量を大幅削減 し、5Bや8Bパラメータモデルでありながら2Bや4Bモデル相当のメモリで動作可能にすること。
具体的には、 2GB・3GB の動的メモリで大規模モデルの運用が可能となり、モバイルでも快適にAIを利用できること。
MatFormerトレーニング により、4Bモデル内に2Bサブモデルをネイティブに内包、「mix’n’match」機能で用途や品質・レイテンシーに応じて柔軟にサブモデルを生成・切替できること。

マルチモーダル・多言語対応

音声・テキスト・画像・動画 を理解・処理し、動画理解も大幅に強化すること。
自動音声認識（ASR）・翻訳 機能を搭載、音声から高品質な書き起こし・翻訳を実現すること。
日本語・ドイツ語・韓国語・スペイン語・フランス語 など、多言語での性能も向上し、WMT24++（ChrF）で50.1%達成など、ベンチマークで高評価を記録すること。

プライバシーとオフライン対応

ローカル実行 によって、ユーザープライバシーを重視し、インターネット接続がなくても機能することを保証。
オンデバイスAIによる プライバシー保護 と高信頼性の両立を目指すこと。

新たな活用シナリオ

リアルタイムの視覚・聴覚情報 を理解し、ユーザー環境に即応するインタラクティブ体験を構築すること。
音声中心アプリ （リアルタイム音声認識・翻訳・音声対話など）の開発を促進すること。
複数モーダル（音声・画像・テキスト・動画） の同時入力・処理で、より深い文脈理解と生成を実現すること。

責任あるAI開発への取り組み

Gemma 3n は、厳格な 安全性評価・データガバナンス・ファインチューニング を経て提供されることを明示。
オープンモデル提供にあたり、 リスク評価 を継続的に行い、AIの進化に応じて運用方針を見直し・改善すること。

プレビュー利用方法・開発環境

Google AI Studio で、クラウド上から即座にGemma 3nを試用できること（セットアップ不要）。
Google AI Edge で、ローカル開発者向けにテキスト・画像理解・生成機能を組み込んだ開発ツール・ライブラリを提供開始すること。
今後、 Android・Chrome 等の主要プラットフォームでも段階的に利用可能となること。
Google I/O 2025 の公式情報は5月22日以降、 io.google で随時更新されることを確認。

Gemma 3n は、AIの民主化とオンデバイスAI体験の進化を牽引する中核モデルとして、今後の開発・応用が大いに期待されることを提案。

Hackerたちの意見

おそらくこっちのリンクの方がいいかも: https://developers.googleblog.com/en/introducing-gemma-3n/ Gemma 3nは、パー・レイヤー・エンベディングを利用して、2-4Bパラメータモデルのデバイス上のメモリフットプリントを実現するモデルだよ。同時に、Chatbot ArenaでClaude 3.7 Sonnetにほぼ匹敵するパフォーマンスを発揮するんだ。

└

それはちょっと良すぎる気がする。何か裏があるの？

└

それは4Bパラメータモデルじゃないよ。E4Bバリアントは7Bパラメータで、パー・レイヤー・エンベディングを使ってメモリに4Bをロードする時は、高速ストレージにキャッシュされていて、ビジョンやオーディオのサポートはないんだ。

└

大多数の人間より賢いモデルがスマホに収まるなんて想像してみて。編集: こんなに小さいのにパワフルなモデルの可能性にワクワクしてるのは私だけみたい。これはiPhoneの瞬間だね：ポケットに収まるコンピュータ、今回は賢いんだ。

「パー・レイヤー・エンベディング」って何？その用語で見つかるのは発表のブログ記事だけなんだけど。それに、Gemma 3nのダイナミックにサブモデルを作成するための>mix’n’match機能って何？トークンごとにルーティングする代わりに、実際にサブモデル全体を作成するっていう、エキスパートの混合を極限まで持っていった感じ？

└

https://ai.google.dev/gemma/docs/gemma-3n#parameters > Gemma 3nモデルは、E2BやE4Bなどのパラメータ数がリストされていて、モデルに含まれるパラメータの総数よりも少ないんだ。Eプレフィックスは、これらのモデルが効果的なパラメータのセットを減らして動作できることを示してる。この減少したパラメータ操作は、Gemma 3nモデルに組み込まれた柔軟なパラメータ技術を使って、リソースが少ないデバイスでも効率的に動作できるようにすることができるんだ。> Gemma 3nモデルのパラメータは、テキスト、ビジュアル、オーディオ、パー・レイヤー・エンベディング（PLE）パラメータの4つの主要なグループに分かれている。E2Bモデルの標準実行では、モデルを実行する際に50億以上のパラメータがロードされる。でも、パラメータスキップとPLEキャッシング技術を使うことで、このモデルは実効メモリ負荷が20億未満（19.1B）で動作できるんだ、図1に示されている通り。

└

記事から見ると、彼らが何かを発明したようですね。> Gemma 3nは、Google DeepMindのPer-Layer Embeddings（PLE）という革新を活用していて、RAMの使用量を大幅に削減しています。あなたと同じく、私もアーキテクチャの詳細に興味があります。推測はできますが、詳細を知るには何らかの論文を待たなければならないでしょうね。

└

レイヤーごとのLoRAアダプター、かな？ - Appleがデバイス上のAIに使っているのと同じですね。

└

これはブログ投稿で言及されている論文[1]へのあまり良くない名前の参照だと思います。もし別のもっと説明的な名前を付けるとしたら、「Per-Layer Embedding Dimensionality」と名付けるかもしれません。[1] https://arxiv.org/pdf/2310.07707

└

これを読めば、包括的な深掘りができますよ。https://arxiv.org/pdf/2502.01637 ざっくり言うと、入力層に埋め込みを持つのではなく、この方法ではレイヤーレベルで埋め込みを保持します。つまり、各トランスフォーマーレイヤーは、ネットワークを流れる処理された隠れ状態を修正するために使用される独自の学習可能な埋め込みベクトルのセットを持っています。ほとんどの場合、埋め込みは事前に計算されて別々に保存されます。推論時にクエリされ、非常に低いレイテンシーを持つため、RAMの半分で同等のパフォーマンスが得られます。（3nがどのようにやっているかは正確には分かりませんが、一般的な意味で話しています。）

一方で、これらの小さなモデルで可能なことはかなり印象的だよ（私はしばらくの間、スマホやコンピュータで使ってる）。でも、アプリのサイズがさらに膨れ上がるのは本当に楽しみじゃないな – iOSではアプリ間で共有する合理的な方法がないし、企業のアプリが「可能だから」という理由でLLMを含め始めるのが想像できる。

└

それはiOSが最終的に対処する問題だと思う、多くのアプリがこの技術を求めるだろうし、Appleがアプリを配布しているから、平均的なアプリが10倍大きくなるのは興味ないはず。もちろん「プライバシー」のために開発者に自社のモデルを使わせようとするかもしれないけど、独占的な理由じゃないよね。

Hacker Newsで議論の続きを見る

ハクソク