世界を動かす技術を、日本語で。

ジェミニ 3.1 プロ

概要

  • Gemini 3.1 Pro はGoogleの最先端マルチモーダルAIモデル
  • 複雑な推論・マルチモーダル処理 に優れた性能
  • 安全性・倫理性 を重視した評価と対策を実施
  • 既知の制限やリスク、緩和策についても明記
  • Frontier Safety Framework に基づく厳格なリスク管理

Gemini 3.1 Pro モデルカード(2026年2月公開)

  • Gemini 3.1 Pro はGemini 3シリーズの最新モデルであり、Googleによる最も高度な推論・マルチモーダル対応AI
  • テキスト、画像、音声、動画、コードリポジトリ など多様な情報源を理解可能
  • 入力: 最大100万トークンの文脈ウィンドウ、テキスト・画像・音声・動画対応
  • 出力: 最大64Kトークンのテキスト生成
  • Gemini 3 Pro をベースとしたアーキテクチャ・データセット設計

評価とベンチマーク結果

  • 推論力・マルチモーダル能力・多言語性能・長文文脈処理 など多岐にわたるベンチマークで評価
  • Gemini 2.5 Pro を大きく上回る性能を発揮
    • 例: ARC-AGI-2(抽象的推論)で77.1%GPQA(科学知識)で94.3% など
  • 競合モデル(GPT-5.2, GPT-5.3-Codex, Sonnet 4.6, Opus 4.6) とも比較し、複数分野で優位性を示す

想定用途と制限事項

  • 現実世界の複雑な課題解決、高度な推論や知性、創造性、戦略的計画を要する場面に適応
  • エージェント的な自律動作、高度なコーディング、長文脈・マルチモーダル理解、アルゴリズム開発に最適
  • 既知の制限事項・利用規約 についてはGemini 3 Proモデルカードを参照

安全性・倫理性評価

  • 自動化・手動双方の安全性評価 を実施
    • テキスト・画像・多言語安全性で Gemini 3.0 Proと同等以上 の結果
    • 不当な拒否応答の抑制、敏感なトピックでの適切なトーン維持
  • 子ども保護・有害コンテンツ対策 に関しても専門チームによる評価をクリア
  • リスク・緩和策、詳細はGemini 3 Proモデルカード参照

Frontier Safety(最先端リスク管理)

  • Frontier Safety Framework に基づく厳格なリスク評価を実施
    • CBRN(化学・生物・放射線・核情報)サイバー有害操作機械学習R&Dミスアライメント の5分野で評価
  • Deep Thinkモード 含む各分野でCCL(クリティカル能力レベル)には未到達
    • サイバー分野では警告閾値到達も、CCLは未到達
    • 他分野でも 緩和策を継続展開
  • 継続的なテスト・能力ジャンプ検知 による安全性確保

まとめ

  • Gemini 3.1 Pro は高度な推論・マルチモーダル対応AIとして、 安全性・倫理性・リスク管理 を重視
  • 現実世界の複雑な課題解決多様な業務自動化 に強み
  • 利用ガイドライン・リスク・緩和策 は随時更新され、 透明性の高い運用 を目指す

Hackerたちの意見

価格はGemini 3 Proと変わらず、入力が$2/M、出力が$12/Mだよ。知識のカットオフは2025年1月で変わってない。Gemini 3.1 Proは「中程度」の思考をサポートしてるけど、Gemini 3ではできなかったんだ。Opus 4.6の入力が$5/M、出力が$25/Mと比べると、もしGemini 3.1 Proが同じくらいのパフォーマンスを持っているなら、価格差は結構目立つね。

アップデートは主にシステムプロンプトとコアモデル周りのオーケストレーションやツールの変更が中心みたいだね。知識のカットオフが変わらないなら。

Vendor-Bench 2で長期的な視点での大きな進展が見られないなら、CCから乗り換えるつもりはないよ。Googleがその点でAnthropicに勝てるまで、Claude Codeとトップの長期モデルの組み合わせは、全層での最適化を進めていくと思う。

G3.1Pにはまだ最小限の推論がないね :( (これがOpus 4.6の値段に見合う理由だよ。思考をオフにすると3倍から5倍速くなるけど、知能はほんの少ししか失わない。誰もまだそれに気づいてないみたい。)

「ペリカンが自転車に乗っている」テスト以外のSVGではうまくいってるよ。このプロンプトみたいにね:「ユニコーンがXboxで遊んでいるSVGを作成して」まだ最終結果にはちょっと調整が必要だけど、ARC-AGIベンチマークがこんなに跳ね上がってるから、モデルの視覚能力がこれだけうまくいってるんだと思う。

あのスタイルは、私がもらったペリカンと比べてちょっと3Dっぽくなってるのが面白いね。

モデルがSVGを生成するのがどんどん上手くなっていくと、リアルタイムで生SVGを使って任意のUIやインタラクティブメディアを作れるようになる時が来るかもしれないな(フラッシュゲームみたいに)。

一方で、他のベクター画像フォーマットの生成(例えば、「セイウチが歯を磨いているポストスクリプトファイルを作成」)は、あまり改善されていないみたい。もしかしたら、SVG生成に特化して最適化しているのかもね。

タイトルが間違ってるよ、「Gemini 3.1 Pro」にすべきだね。すごくいいペリカンだね: - でも5分以上かかったけど、これは発売日でパフォーマンスの問題があるからだと思う。

あれは何?バスケットの中のおやつ?

Geminiファミリーのモデルに対する私の主な問題を見事に示してるね。彼らはいつも「期待以上」のことをしようとする。私が明示的にそれに反対するプロンプトを出してもね。この場合、ほとんどのSVGは自転車とペリカンだけでなく、雲や太陽、ペリカンの帽子なども含まれてる。コーディングしても全く同じことが起こる。Geminiに「助けになる」リファクタリングをしないようにするのはほぼ不可能で、何を言ってもコードコメントを追加し続ける。全体的に非常にイライラする体験だよ。

もっと詳しいプロンプトの使用をやめたの?ここで説明してたと思うけど。https://simonwillison.net/2025/Nov/18/gemini-3/

モデルがもうすぐ、ペリカンが自転車に乗ってるSVGを生成するベンチマックスを始めるよ。

見た目はあんまり良くないけど、実用的で、回路設計をSVGのスキーマティックとして出力するのがすごく得意だよ。https://www.svgviewer.dev/s/dEdbH8Sw

サイドビュー以外のものがいつ出るのか気になるな。

モデルが良いSVGを出力するようにトレーニングしたみたいだね。彼らのブログ記事では、最初のユースケースとしてSVG生成が挙げられている。だから、もう全然指標にならないかもしれないね。[1] https://blog.google/innovation-and-ai/models-and-research/ge...

誰か、LLMがこんなに上手くなった理由を理解してる人いる?SVGの形を正確に生成する能力は、他の文脈での空間理解がイマイチな割には、期待以上にすごい気がするんだよね。

今やペリカンベンチマークが広く使われてるから、データセットには高品質なペリカンが入ってるはずだと思うんだけど。自転車に乗ったオカピを生成するのはどう?

AIスタジオのリンクを使って、温度を1.75に設定して試してみたよ:https://jsbin.com/locodaqovu/edit?html,output

他のGemini Pro 3.1のスレッドでもこれを共有したけど、ここでもシェアしたいと思って。自転車に乗ったペリカンのSVGを生成するプロンプトを試してみたんだけど、これができたよ。モデルはこれを生成するのに5分以上考えた。フォトリアルではないけど(明らかに「おかしい」部分がある)、確実に複雑さの大きな飛躍だね。

ヘルメットをかぶってるのを見るといいね。安全チームがしっかりしてるんだろうな。

実装と持続可能性 ハードウェア:Gemini 3 Proは、Googleのテンソル処理ユニット(TPU)を使ってトレーニングされたんだ。TPUは、LLMのトレーニングに必要な膨大な計算を処理するために特別に設計されていて、CPUに比べてトレーニングをかなり速くすることができる。TPUは大容量の高帯域幅メモリを備えていることが多く、大きなモデルやバッチサイズを扱うことができるから、モデルの質が向上することもあるんだ。TPUポッド(TPUの大規模クラスター)も、大きな基盤モデルの複雑さに対応するためのスケーラブルなソリューションを提供するよ。トレーニングは複数のTPUデバイスに分散できるから、より速く効率的に処理できるんだ。つまり、GoogleはNVIDIAのGPUを全く使ってないの?

うん、TPUだけ。

じゃあ、Geminiを使う理由がまた一つ増えたね。ゲーマーへの影響が少ないし…

そこで働いていた時は、nvidiaのGPU(特にTPUがまだ能力不足だったスパース問題用)やCPU、TPUを混ぜてトレーニングしてたよ。数年離れてたけど、TPUが忙しいからnvidiaのGPUを使わざるを得ない研究者がいるっていう話を聞いたことがある。

なんか、持続可能性とか言いながら、成長が早いとか大きいとか、結局マーケティングのクソみたいな情報しかないよね。

これが3.0 Proよりも良くなることを願ってるよ。元Googleの社員で、チームの近くにいる人たちも知ってるから、少し応援してるんだけど、Geminiは開発で使った中で一番イライラするモデルなんだ。推論やデザイン、生のコード生成は驚くほど得意なんだけど、実際に物事を進めようとするとすぐに躓いちゃう。特にClaude Opusと比べるとね。VS Code Copilotの中では、Claudeが思考の流れとユーザーへの反応のバランスが良いんだけど、Geminiはほとんど思考トークンだけを使って、何かをするけど何をしたのか教えてくれない。思考トークンを見ないと何が起こったのか分からないし、思考トークンの流れはひどいんだ。「今、問題に完全に没頭してる…」みたいな感じ。Geminiはよく迷ったり、ループにハマったりして前に進めなくなることが多いし、ツールの使い方も下手で、提供されたテキスト編集ツールを使わずに変な方法でファイルを編集しようとするんだ。Copilotでは、明確な質問をしないけど、Gemini CLIではするんだ。だから、Geminiで計画を立てて、Claudeで実行するアプローチを試みてるけど、そうしてる間はClaudeに留まってた方がいいかも。体験が全然違うからね。Googleが先に進んでるって聞くけど、実際のところAnthropicの方がいいように思える。GeminiのGoogleの人たちが、実際のプロジェクトでこれらのことを試してることを願ってるよ。一発でゲームをクリアして勝ちって言ってるだけじゃないといいな。

トークンストリームは難読化されてるのかな?完全に没頭してるよ。

うん、g3pは他のフラッグシップと同じくらい賢いか、もっと賢いけど、信頼性が足りないんだ。思考ループに入っちゃって、何度も繰り返すから10万トークン以上消費しちゃう。https://blog.brokk.ai/gemini-3-pro-preview-not-quite-baked/ 3.1がもっと良くなってるといいな。

Gemini 3はまだプレビュー中(制限がある)で、2.5は廃止予定(まだ使えるけど、長くはない)。Googleは近いうちにモデルを本番環境に投入する予定あるのかな?それに、代替案なしでモデルが廃止されるのはちょっと面白いね(gemini-2.5-flash-lite)。人々にClaudeに切り替えることを勧めてるのかな? [0] https://ai.google.dev/gemini-api/docs/deprecations

完全に同意するよ。これらのモデルが廃止されたり、まだリリースされてなかったりするのに、どうやって誰かがこれを基に開発できるのか全く理解できない。廃止されたモデルで稼働しているシステムを持っている身としては、この状況は本当に辛い。

これ、すごくGoogleっぽい感じがする。

3.1 Proは、俺の「五本足の犬」テスト画像で正しく足の数を数えた初めてのモデルだよ。3.0 flashが前のベストで、いくつかのプロンプトでやっと数えたんだけど、3.1は最初のプロンプトで「犬は何本足ですか?注意深く数えて」と聞いたらすぐに答えた。ただ、元のプロンプト(「犬は何本足ですか?」)では最初は4って言って、その後のプロンプトでやっと5って言ったけど、1本は隠れてたみたい。だから、90%くらいかな?ツールなしでの話ね。

あなたの質問は、周りのカバーの多さからトレーニングデータの一部になっちゃったかもね。新しいテストを考えた方がいいかも :P

車洗いの質問には完璧に答えたね。絶対に車をそこまで運転しないとダメだよ—ニュートラルにして押すつもりじゃない限り!200フィートはすごく短くて簡単な距離だけど、車なしで歩いて行ったら、着いた時には洗うものがないからね。車は一緒に行かないと、石鹸と水を浴びることができないから。ほぼ隣にあるから、人生で一番短いドライブになるよ。エンジンかけて、さっと行って、ピカピカにしよう。洗った後に雨が降らないか、天気予報をチェックしてあげようか?

たぶん、その例をトレーニングのスープに入れる時間があったんだろうね。

もちろん、質問は、車洗いの質問を正しく理解したのは「車洗いの質問」だからなのか、それとも実際に車がそこにいる理由を推測できたからなのか、ってことだね。

AI Proサブスクリプションでgemini.google.com/appを使ってるよ。「何かがうまくいかなかった」ってFFで出るけど、Chromeでは動く。以下は、以前のGeminiモデルが失敗してたテストプロンプトの一つ。3.1 Proは今回はまあまあの出来だった。> c++、sdl3を使って。SDL_AppInit、SDL_AppEvent、SDL_AppIterateコールバック関数を使って。デフォルトのmain関数の代わりにSDL_mainを使って。基本的なハローワールドアプリを作って。