概要
- Gemma 3n は、スマートフォン等のデバイス上で高速・効率的に動作する次世代AIモデル。
- Qualcomm, MediaTek, Samsung 等と連携し、マルチモーダルAI体験を最適化。
- Per-Layer Embeddings などの革新技術でメモリ使用量を大幅削減。
- モデルは 日本語を含む多言語 で高性能を発揮、音声・画像・動画も処理可能。
- Google AI Studio や Google AI Edge でプレビュー利用開始、開発者向け体験を提供。
Gemma 3n:次世代オンデバイスAIモデルの登場
Gemma 3nの概要と特徴
- Gemma 3n は、Gemma 3およびGemma 3 QATの後継として登場、 スマートフォン・タブレット・ノートPC 等の一般的なデバイス上でリアルタイムAI体験を実現することを目指す提案。
- Qualcomm Technologies, MediaTek, Samsung System LSI などのモバイルハードウェアリーダーと協力し、 マルチモーダルAI (音声・画像・テキスト・動画)に最適化された新アーキテクチャを開発すること。
- Gemma 3n は、Gemma 3よりも 高速・高品質 な応答を実現し、モバイルデバイス上でのAI利用を容易にすること。
- Gemini Nano の次世代基盤としても活用され、今後AndroidやChromeなど主要プラットフォームへ展開予定であることを確認。
- Chatbot Arena Eloスコア においても高評価を獲得し、プロプライエタリ・オープン両方のモデルで上位にランクインすること。
技術革新とメモリ効率
- Per-Layer Embeddings (PLE) の導入により、 RAM使用量を大幅削減 し、5Bや8Bパラメータモデルでありながら2Bや4Bモデル相当のメモリで動作可能にすること。
- 具体的には、 2GB・3GB の動的メモリで大規模モデルの運用が可能となり、モバイルでも快適にAIを利用できること。
- MatFormerトレーニング により、4Bモデル内に2Bサブモデルをネイティブに内包、「mix’n’match」機能で用途や品質・レイテンシーに応じて柔軟にサブモデルを生成・切替できること。
マルチモーダル・多言語対応
- 音声・テキスト・画像・動画 を理解・処理し、動画理解も大幅に強化すること。
- 自動音声認識(ASR)・翻訳 機能を搭載、音声から高品質な書き起こし・翻訳を実現すること。
- 日本語・ドイツ語・韓国語・スペイン語・フランス語 など、多言語での性能も向上し、WMT24++(ChrF)で50.1%達成など、ベンチマークで高評価を記録すること。
プライバシーとオフライン対応
- ローカル実行 によって、ユーザープライバシーを重視し、インターネット接続がなくても機能することを保証。
- オンデバイスAIによる プライバシー保護 と高信頼性の両立を目指すこと。
新たな活用シナリオ
- リアルタイムの視覚・聴覚情報 を理解し、ユーザー環境に即応するインタラクティブ体験を構築すること。
- 音声中心アプリ (リアルタイム音声認識・翻訳・音声対話など)の開発を促進すること。
- 複数モーダル(音声・画像・テキスト・動画) の同時入力・処理で、より深い文脈理解と生成を実現すること。
責任あるAI開発への取り組み
- Gemma 3n は、厳格な 安全性評価・データガバナンス・ファインチューニング を経て提供されることを明示。
- オープンモデル提供にあたり、 リスク評価 を継続的に行い、AIの進化に応じて運用方針を見直し・改善すること。
プレビュー利用方法・開発環境
- Google AI Studio で、クラウド上から即座にGemma 3nを試用できること(セットアップ不要)。
- Google AI Edge で、ローカル開発者向けにテキスト・画像理解・生成機能を組み込んだ開発ツール・ライブラリを提供開始すること。
- 今後、 Android・Chrome 等の主要プラットフォームでも段階的に利用可能となること。
- Google I/O 2025 の公式情報は5月22日以降、 io.google で随時更新されることを確認。
Gemma 3n は、AIの民主化とオンデバイスAI体験の進化を牽引する中核モデルとして、今後の開発・応用が大いに期待されることを提案。