概要
- Gemma 3n は、オンデバイスAIの新時代を切り開く多機能モデル
- 画像・音声・動画・テキスト のマルチモーダル入力をネイティブ対応
- MatFormer や Per-Layer Embeddings など革新的アーキテクチャを採用
- 開発者コミュニティ向けに 幅広いツール・プラットフォーム でサポート
- Gemma 3n Impact Challenge で社会貢献プロダクトの開発を推進
Gemma 3n:オンデバイスAIの新たな進化
- Gemma 3n は、Gemmaシリーズの最新モデルであり、モバイル・エッジデバイス向けに設計
- 160百万回以上のダウンロード を誇るGemmaverseの成長を背景に誕生
- Hugging Face Transformers、 llama.cpp、 Ollama、 MLX など主要ツールと連携
- 開発者が 容易にファインチューニング・デプロイ 可能な設計
- 医療・セキュリティ・画像認識 など多様な分野で応用可能
Gemma 3nの主な新機能
- マルチモーダル設計 :画像・音声・動画・テキスト入力、テキスト出力に対応
- 効率化重視の2サイズ展開 :E2B(5Bパラメータ、2GBメモリ)、E4B(8Bパラメータ、3GBメモリ)
- MatFormerアーキテクチャ :1つのモデル内に複数サイズを内包し、柔軟な推論を実現
- Per-Layer Embeddings (PLE) :高品質を維持しつつ、アクセラレータメモリの負担を軽減
- KV Cache Sharing :長文・ストリーミング入力の処理速度を2倍に高速化
MatFormer:柔軟なモデルサイズ制御
- MatFormer(Matryoshka Transformer) は、1つの大きなモデルの中に小さなサブモデルを内包
- E4Bモデル 内に E2Bサブモデル を同時最適化
- Mix-n-Match 手法で、E2B~E4B間のカスタムサイズモデルを生成可能
- MatFormer Lab ツールで最適なモデルサイズを探索・取得
- 将来的には Elastic Execution により、タスクや負荷に応じてリアルタイムで推論パスを切り替え可能
Per-Layer Embeddings (PLE):メモリ効率の最適化
- PLE により、各層の埋め込みパラメータをCPUで効率的に処理
- アクセラレータ(GPU/TPU)には コアTransformer重み のみをロード(E2Bで約2B、E4Bで約4B)
- デバイスのメモリ制約下でも高性能AIの実現
KV Cache Sharing:長文処理の高速化
- KV Cache Sharing により、ストリーミング応答や長文入力の初期処理(prefill)を高速化
- Gemma 3 4B 比で 2倍のパフォーマンス向上
- オンデバイスのマルチモーダルアプリで重要な機能
音声理解機能とASR/AST
- Universal Speech Model (USM) ベースの音声エンコーダを搭載
- 自動音声認識(ASR) と 自動音声翻訳(AST) に対応
- 英語⇔スペイン語・フランス語・イタリア語・ポルトガル語間の翻訳で高精度
- Chain-of-Thoughtプロンプト による翻訳精度向上
- 現状30秒までの音声クリップをサポート、今後は長時間ストリーミングにも対応予定
MobileNet-V5:新世代ビジョンエンコーダ
- MobileNet-V5-300M を搭載し、エッジデバイスでの画像・動画理解性能を大幅向上
- 256x256~768x768 の複数解像度対応、用途に応じた柔軟な運用
- Google Pixel で最大60fpsのリアルタイム処理
- MobileNet-V4 を基盤にした深層ピラミッド構造・Multi-Scale Fusionアダプタを採用
- 量子化時に SoViT 比で13倍の高速化、パラメータ数・メモリフットプリントも大幅削減
- 今後、 MobileNet-V5技術レポート で詳細公開予定
開発・デプロイのエコシステム
- AMD、 Axolotl、 Docker、 Hugging Face、 NVIDIA、 RedHat など主要OSS開発者と連携
- Google AI Studio、 Cloud Run、 Hugging Face、 Kaggle でモデル配布
- Google AI Edge Gallery/LiteRT-LLM、 Ollama、 MLX、 llama.cpp、 transformers.js などで利用可能
- Vertex AI、 SGLang、 vLLM、 NVIDIA API Catalog など多様なデプロイ方法
Gemma 3n Impact Challenge:社会貢献プロダクトの創出
- Gemma 3n のオンデバイス・オフライン・マルチモーダル特性を活かしたプロダクト開発を募集
- 賞金総額15万ドル、インパクトあるデモ動画が評価基準
- 参加を通じて より良い未来の構築 に貢献
Gemma 3nのはじめ方
- Google AI Studio で数クリックで体験
- Hugging Face や Kaggle からモデル重みをダウンロード
- 公式ドキュメント や ガイド で迅速な導入・ファインチューニングが可能
- お気に入りのAIツール・フレームワークでプロジェクトに統合・デプロイ