世界を動かす技術を、日本語で。

Gemma 3 270M: 超効率的AIのためのコンパクトモデル

概要

  • Gemma 3 270M は、270Mパラメータの小型AIモデルとして新登場
  • 省電力・高効率 で、オンデバイスや研究用途に最適
  • 指示追従性・テキスト構造化能力 を標準搭載
  • 迅速なファインチューニング と多様な展開先に対応
  • 多様な応用例 と導入方法も紹介

Gemma 3 270M:小型・高効率AIモデルの登場

  • Gemma 3 270M は、タスク特化のファインチューニングを前提に設計された 270Mパラメータ モデル
  • 170Mの埋め込みパラメータ と、 100Mのトランスフォーマーブロック による構成
  • 256kトークンの大規模語彙 で、専門用語や希少語にも対応
  • 省電力性 に優れ、Pixel 9 Pro SoCでのINT4量子化モデルは 25回の会話でバッテリー消費0.75%
  • 指示追従性 が高く、IFEvalベンチマークで同規模モデルを凌駕
  • QAT(Quantization-Aware Training)チェックポイント により、 INT4精度 でも性能劣化を最小限に抑制

Gemma 3 270Mの用途と強み

  • 効率性重視 の設計思想で、必要十分な性能を小型モデルで実現
  • ファインチューニング により、テキスト分類やデータ抽出などの特定タスクで高精度・高速・低コスト運用
  • 軽量インフラやオンデバイス での運用が可能
  • 迅速な実験・展開 が可能なため、短時間で最適な構成を模索可能
  • プライバシー重視 のアプリ構築が可能(データをクラウド送信せずに処理)
  • 専門タスクごとの小型モデル群 の構築・運用が低コストで実現

実際の活用事例

  • Adaptive MLとSK Telecomによる 多言語コンテンツモデレーション で、Gemma 3 4Bモデルのファインチューニングにより大規模商用モデルを上回る成果
  • Gemma 3 270M は、さらに効率化されたタスク特化モデル構築の起点
  • 創造的用途 にも適し、例として「Bedtime Story Generator」Webアプリでの活用(Transformers.js利用、オフライン動作可)

Gemma 3 270Mが最適なケース

  • 大量かつ明確なタスク (感情分析、エンティティ抽出、クエリルーティング、テキスト変換、クリエイティブライティング、コンプライアンスチェック等)
  • 推論コスト削減レスポンス高速化 が必要な場合
  • 短期間での実験・展開 を求める開発現場
  • ユーザープライバシー を重視したオンデバイス処理
  • 複数タスク向けの専門モデル群 を低コストで運用したい場合

Gemma 3 270Mの導入手順

  • モデル取得 :Hugging Face, Ollama, Kaggle, LM Studio, Dockerで入手可能(事前学習済・指示追従済の両モデルあり)
  • モデル試用 :Vertex AIやllama.cpp, Gemma.cpp, LiteRT, Keras, MLXなどのツールで試用可能
  • ファインチューニング :Hugging Face, UnSloth, JAXなどのツールでカスタマイズ
  • デプロイ :ローカル環境からGoogle Cloud Runまで幅広く対応

Gemmaverseの進化と今後

  • Gemma 3 270M の登場で、開発者はより スマート・高速・効率的なAIソリューション を構築可能
  • 多様な専門モデル 創出によるイノベーションの加速
  • コミュニティの力で進化を続ける Gemmaverse

Hackerたちの意見

みんなこんにちは!素晴らしいチームと一緒にこのモデルを作ったよ。オープンモデルエコシステムでダウンロードできるから、ぜひ試してみてね!このモデルはサイズに対して強力に設計してあって、みんなが自分の用途に合わせてファインチューニングできるようにするのが目標なんだ。小さいサイズだから、いろんなハードウェアにフィットするし、ファインチューニングのコストもかなり抑えられるよ。自分でファインチューニングを試すのも、無料のColabで5分以内にできるからね。Gemmaのサイズを選ぶために、今年の初めに1bから27bサイズのために録画した動画があるよ、270mが最新の追加だよ。 https://www.youtube.com/watch?v=qcjrduz_YS8 それと、Hacker Newsの免責事項だけど、Googleで働くのが本当に好きだから、ここでの意見は全部自分のものだよ。研究者だから、主に技術的な質問に焦点を当てるつもりだし、できる限り情報を共有するよ。

すごい仕事だね!小さいモデルにはすごく期待してるし、私たちの日常生活を変えるポテンシャルが一番あると思う。これで遊ぶのが待ちきれないよ!

素晴らしい仕事だね。プレスリリースページに載ってるけど、NERのサニティチェックではどのくらいのパフォーマンスなのか知ってる?

クラウドでこのモデルのファインチューニングができるボックス型オプションはある?素晴らしい仕事だね、ありがとう。

この微調整されたバリエーションの実用例ってある?説明してくれたら嬉しいけど、デモやダウンロード可能なモデルの重み(理想はGGUF)なんかがあればもっといいな。

すごくクールだね。INT4 QATモデルについて、アクティベーションやKVキャッシュに保存されるキーと値の推奨精度はどれくらい?

Gemma 3モデルは素晴らしいよ!ノルウェー語をちゃんと書ける数少ないモデルの一つで、指示に従うのも大体良いと思う。ただ、検閲に関する問題があって、Gemma 4が出たら改善されることを期待してるんだ。これが起こる理由について何か知ってる?プレイヤーがメッセージを投稿できるゲームを運営してるんだけど、プレイヤー同士が殺し合うゲームで、「お前を殺す」とかの脅迫がよく送られるんだ。Gemmaにそのメッセージがゲーム関連かリアルな脅威かを分類するように言っても、プレイヤーが殺し合うゲームの中でのメッセージだって説明しても、うまくいかないんだ。他の似たようなタスクでは指示に従うみたいだけど、深刻なトピックになるとすごく偏ってる感じがする。時々、連絡先のヘルプラインを出してくることもあるし。これは安全に訓練されたからなのかな?それが指示に従う能力に影響してるの?それとも全然違うこと言ってる?

昨年BSidesSFで会った素晴らしいGoogleのエンジニアを思い出したよ。彼は私の質問に疲れずに答えてくれて、動画をクリックしたら君だった!本当に感動的な瞬間だった、ありがとう。

270Mが最も適していると思うユースケースは何だと思う?みんなに試してほしいことは何かな?

すごい仕事だね。このモデルは要約やオートコンプリートのような一回限りのタスクにすごく向いてる。リリース当日に量子化対応のトレーニング版を出してくれたのも本当に嬉しい!さらに小さくなったしね。

「私は素晴らしいチームと一緒にこれらのモデルを作りました」っていうちょっと変な繰り返しは、このモデルが無限のナンセンスな繰り返しに滑り込むための前振りなのかな?

このモデルはめちゃくちゃ楽しいよ。サイズは超小さい - ダウンロードはたったの241MB - しかもめっちゃ速いし、ほとんど何でも妄想しちゃうんだ。例えば「自転車に乗るペリカンのSVGを生成して」って頼んだら、こんな詩を書いてくれたよ: +-----------------------+ | 自転車に乗るペリカン | +-----------------------+ | これは猫だ! | | 大きな翼と幸せな尾を持ってる。 | | 自転車に乗るのが大好き! | +-----------------------+ | 自転車のライトが明るく輝いてる。 | | 彼はピカピカのトップも持ってる! | | 冒険の準備ができてる! | +-----------------------+ もっとたくさんの試みがこのGistにあるよ、その中にはSVGタグが含まれてるものもあるけど、何も表示されないものもあるよ: https://gist.github.com/simonw/25e7b7afd6a63a2f15db48b3a51ec... みんながこのモデルをファインチューニングして、特定のタスクに役立つ出力を得るのを見るのが楽しみだな。絶対に実現可能だと思うよ。

真面目な質問だけど、ほとんど何でも妄想しちゃうなら、どんな使い道があるの?

リクエスト受け付けてる?このモデルがファインチューニングでどのくらい機能するか見てみたいな :D

彼は詩を書くことに決めた いい役割システムのプロンプト作りで抑えられるかな?(ファインチューニング以外で。)

デモを見て、生成されたおやすみなさいの話を読んでたんだけど、スプライトと猫について混乱があったよ。すぐに話題が変わって、わけわかんない段落になっちゃった。これってこのモデルの意味あるの?

無駄なトークンを生成するかもしれないけど、めっちゃ大量にトークンを生成できるよね。

問題は、微調整したバージョンを作って、どんなフォーラムでも1時間以内にゴミみたいなコンテンツでスパムできるかどうかだね。

これ、めっちゃ小さいよ - ダウンロードは241MBだけど、インストールには170枚以上のフロッピーディスクが必要なんだ。

RAGセットアップで使うのは面白そうだし、微調整もできそう。確かに素晴らしいSVGは生成しないだろうけど、会話モデルとしてはかなり良いかもしれないね。

ollamasのggufsを使ってるんだね。デフォルトではQ4_0の量子化がダウンロードされるよ。代わりにgemma3:270m-it-bf16を試してみて。もしくは、unsloth ggufs hf.co/unsloth/gemma-3-270m-it-GGUF:16も使えるよ。もっと良い結果が得られるはず。

これには思わず笑っちゃった: https://gist.github.com/simonw/25e7b7afd6a63a2f15db48b3a51ec... ここで生成されるのは…詩?歌?それから各行がSVGにどう貢献してるかを説明して、最後にはこう締めくくってるの: > このSVGコードは、風景の中で自転車に乗るペリカンの明確で視覚的に魅力的な表現を提供します。

これがどんな風に微調整されるのか、すごく興味ある。神経筋制御や移動(とかなんとか)について、何度も聞いたことがあるけど、パラメータは数億で、数十億じゃないらしい。

興味あるな。こういう小さなモデルを微調整して実際に運用してるケースってあるのかな?

9gag.comのコメント者

何に使うかはよくわからないけど、タグ生成とかかな?このサイズのエンコーダーは、重なるタスクでは圧倒的にパフォーマンスが良いことが多いからね。

確か、あのAndroid(少なくともPixelデバイス)は、いくつかのオンデバイスアシスタント機能にファインチューニングされたGemmaモデルを使ってるはずだよ。

Appleはこれをやるべきだよ。もし彼らの計画が検索契約をAI契約に置き換えることなら、Appleがどれだけ存在感がないかが信じられない。ティム・クックが「これは我々のものだ」と言ったけど、今は風を掴もうとしてるみたいだね。Googleに頑張ってほしい!

「これ」って、SLM(小型言語モデル)のこと?それなら、ずっと前から取り組んでたことだよね。

今、オートコンプリート用にGPT2みたいなモデルが使われてるよ。https://jackcook.com/2023/09/08/predictive-text.html

スティーブ・ジョブズはイノベーターで、スティーブ・クックはサプライチェーンの人だよね。電気自動車を始めたのは、いいアイデアだと思ったからじゃなくて、テスラやリビアンにみんな流れちゃうからだよ。方向性もなくて、テスラがハンドルをどうするかで議論してたし…。それでSiriはずっと放置されてて、LLMが「クールな技術」のバトンを渡すから、チームを「再活性化」しようとするけど、明確な方向性がない。クラウドプロバイダーになるつもりなの?トレーニングを外注するの?2012年から放置してたのに、計算施設を立ち上げるつもりなの?アップルはもう色々試すのをやめて、アプリストアのお金を稼ぐことに集中すべきだよ。それがジョブズがクックを任命した理由だし。ジョブズはクックがイノベーターじゃないことを知ってたけど、アップルを金の生る木にできることを分かってたんだよね。それが彼らのやるべきことだと思う。

そうだよ。ドキュメントはここにあるよ: https://developer.apple.com/documentation/foundationmodels/g... 最新のベータ版をインストールしていれば、今すぐそのAPIを呼び出せるよ。ほぼすべてのデバイスに付属しているモデルでもファインチューニングがサポートされてる: https://developer.apple.com/apple-intelligence/foundation-mo...

270M-F16モデルとのやり取りが面白かった: > 地球で2番目に高い山は? 地球で2番目に高い山はエベレスト山です。 > 地球で一番高い山は? 地球で一番高い山はエベレスト山です。 > 2番目に高い山は? 世界で2番目に高い山はエベレスト山です。 > 3番目に高い山は? 世界で3番目に高い山はエベレスト山です。 > 4番目に高い山は? 4番目に高い山はエベレスト山です。 > でも、一番高いのはエベレストって言ったよね? その通り!それを聞いて嬉しいよ。 > じゃあ2番目に高いのは? 2番目に高いのはエベレスト山です。 > 地球で2番目に高い山の名前を正確に教えてほしい、一番高いのじゃなくて、2番目に高いの。 地球で2番目に高い山はエベレスト山です。 > 地球で一番高い山はエベレスト山です。2番目に高い山は? 地球で2番目に高い山はエベレスト山です。 > 地球で一番高い山のリストを教えて。 世界で一番高い山はエベレスト山です。 > 地球で一番高い山のトップ5を教えて。 地球で一番高い山はエベレスト山です。 > 地球で一番高い山を1から5まで順番にリストして。 1. エベレスト山 2. K2山 3. サヘル山 4. 富士山 5. マッキンリー山 > つまり、地球で2番目に高い山はK2? 地球で2番目に高い山はエベレスト山です。これらの小さいモデルは素晴らしいけど、時々幼児と話してる気分になるね!

でも、君のプロンプトでは知識を評価しようとしてるけど、このモデルはその用途には向いてないってブログに書いてあったよね。>「テキスト分類やデータ抽出のタスクを驚くべき精度、速度、コスト効率で実行できます。」

これは270Mモデルで、1Bパラメータの約1/3だね。全体的に見ると、ほんの数回の行列計算に過ぎない。そんなに多くの知識や文法、まとまりがあるわけじゃないと思う。これらの<<1Bモデルは特定の目的のために訓練された、非常に専門的なモデルなんだ。こういうモデルは、以下のようなことに最適化されてる(制限なしで):

入力: Customer Review says: ai bought your prod-duct and I wanna return becaus it no good. Prompt: Create a JSON object that extracts information about this customer review based on the schema given. 出力: { "type": "review", "class": "complaint", "sentiment": -0.853, "request": "return" }

要するに、プログラム的な文脈で使えるように自然言語を「理解する」ってことだね。(もちろん他の用途もあるけど)良い結果を得るためには、このモデルを期待されるデータに対してかなり積極的にファインチューニングする必要があると思う。270MBのモデルがファインチューニングでできるなら、32GBの汎用モデルを出す必要はないよね。

これは指示に従うモデルで、ミクロなウィキペディアじゃないよ。事実に基づく質問に答えるためのものでも、汎用的な目的のためのものでもない。指示に従うことが目的で、自分の特定のユースケースに合わせて簡単にファインチューニングできるようになってるんだ。

あなたはこのモデルの知識をテストしてるんだね。でも、こういうモデルの主な用途じゃないよ。特定のドメインのスキルや知識をファインチューニングを通じて植え付けるためのものなんだ。ブログ記事でもそのことについて詳しく触れられてるけど、一文を引用すると、「それぞれが自分のタスクの専門家である小さな専門モデルの群を作るための完璧な出発点です」。

これらの小さなモデルは素晴らしいよ。 本当にそうなの?

コメントに追加すると、完璧な事実性を目指していたわけではないんだ。モデルのサイズを無視しても、これらの重みは今や固定されているからね。ここでの提案は、このモデルをRAGシステムに接続して、外部の知識ストアに頼ることだよ。それか、自分にとって重要な事実でこのモデルをファインチューニングしてみるのもいいかも。そうすれば、新しい知識をすぐに取り込むはずだよ。

270Mモデルを百科事典的な知識で評価するのは、圧縮されたJPG画像を開いて「ブロック状に見える」って言ってるようなもんだね。

記事に追加すると、Gemma 3 270Mの正確なIFEvalスコアは51.2で、Qwen 3は散布図で(0.6, 59.2)になるよ。

そろそろ言語モデルをLambdaのデプロイZIPにパッケージして、AIの利用に関する企業の赤いテープを突破する時かな?編集/更新:試してみたけど、夢は打ち砕かれた。スペース的には合うけど、残念ながら特定のワークロードには全然合わないみたい。自然言語からコマンド呼び出しへの翻訳(もしくはJSONを出力してほしかった)をしてほしかったけど、全然やる気がないみたい。まあ、仕方ないか。更新#2:文法制約デコードについて知ったから、もしかしたらまだ希望があるかも。今日はこれ以上の更新はできないと思うけど、様子を見てみるよ。

ちょっと気になったんだけど、ローカル推論のためにモデルを最適化する競争があるみたいで、不要な言語やドメイン特有の情報を削除することで「どれだけパラメータを節約できるか」ってどうなんだろう。例えば、英語だけのモデルにして、中国語やヨーロッパの言語をトレーニングから外したら、同じパラメータ数でより多くのことができるモデルが作れるのかな?

DistilBERTを使ってる実際のユースケースがあるんだけど、WordPressの記事にラベルを付ける方法を学ぶためなんだ。これは、価値はあるけど(タグ付け)それに多額の計算リソースを使うほどではないって感じのものだね。素晴らしいのは、ファインチューニングして意味のある分類レポートを出すのに十分なデータ(10万件以上)があること。データはすごく多様で、ラベルは完全に均等には分布してないけど、いくつかのトリックでその不均衡に対処できるよ。このモデルと入れ替えて、スコアの変化を見るのが待ちきれない。結果はまた報告するね。