ジェミニ3 ディープシンク

2026年2月13日原文(blog.google)

概要

Gemini 3 Deep Think が大幅アップグレード
科学・研究・工学分野 の課題解決に特化
Google AI Ultra サブスクライバーがGeminiアプリで利用可能
研究者・エンジニア・企業向けに Gemini API 経由の早期アクセス提供
数学・物理・化学・工学で世界トップレベルの実績

Gemini 3 Deep Think：科学・工学課題解決の新時代

Gemini 3 Deep Think は、現代の 科学・研究・工学分野 での複雑な課題解決を目指す 高度推論モード の最新バージョン
科学者・研究者との連携 を通じて、明確な正解が存在しない、もしくはデータが不完全な問題に対応
深い科学知識 と 実用的な工学的応用 を融合し、理論から実践への橋渡しを実現

主な利用事例

Rutgers University のLisa Carbone氏：高エネルギー物理学向け数学論文のレビューに活用し、人間の査読を通過した微妙な論理的誤りを特定
Duke University Wang Lab ：半導体材料発見のための結晶成長プロセス最適化に利用し、100μm超の薄膜成長レシピを設計
Google Platforms and Devices のAnupam Pathak氏：物理部品設計の加速に活用

数学・プログラミング分野での実績

Humanity’s Last Exam で新標準（48.4%、ツール未使用）を達成
ARC-AGI-2 で前例のない84.6%（ARC Prize Foundation認証）
Codeforces （競技プログラミング）でElo 3455を記録
国際数学オリンピック2025 で金メダルレベルの成績

科学分野での拡張

物理・化学オリンピック2025 の筆記セクションで金メダル級の成果
CMT-Benchmark （理論物理）で50.5%のスコアを達成

実世界の工学応用

複雑なデータ解析 や 物理システムのモデリング をコード化し、研究者・エンジニアの実務を支援
スケッチから3Dプリント可能な現実物体 への変換が可能
- 図面を解析し、複雑な形状をモデリング、3Dプリント用ファイルを自動生成

利用方法

Google AI Ultraサブスクライバー はGeminiアプリで即日利用可能
研究者・エンジニア・企業は Gemini API 経由の早期アクセスプログラムに申し込み可能（詳細は公式案内参照）

まとめ

Gemini 3 Deep Think は、最先端の推論力と実用性を兼ね備えたAI
数学・科学・工学 の最難関課題に挑戦し、現場の研究・設計を革新
今後の進化と応用例 に期待

Hackerたちの意見

こちらがすべてのベンチマークの方法論です: https://storage.googleapis.com/deepmind-media/gemini/gemini_... arc-agi-2のスコアは84.6%で、これはセミプライベート評価セットからのものです。もしgemini-3-deepthinkがプライベート評価セットで85%以上を取ったら、「解決済み」と見なされます。 >「ARC-AGI-2プライベート評価セットで85%のスコアを出す解決策を提出すれば、70万ドルがもらえる。」 https://arcprize.org/guide#overview

└

面白いことに、そのPDFのタイトルは「Gemini 3.1 Pro」って呼ばれてる。もうすぐ発表されるのかな。

└

gemini-3-deepthinkがプライベート評価セットで85%以上取れたら、「解決済み」と見なされるんだって。でも、プライベートセットでそれを達成することはないだろうね。そうなったら、Googleに漏れたってことになるから。

Arc-AGI-2: 84.6%（Opus 4.6は68.8%）すごいね。 https://blog.google/innovation-and-ai/models-and-research/ge...

└

終わったね。

└

まあ、公平な比較をするなら、GPT-5.x Proと比べるべきだね。これはGemini Deep Thinkと同じクラスのモデルだし。

└

1年前、最先端のモデルでやっと1-10%の成果を出してたのに、それが最終ボスだって言われてたよね。これを解決すればほぼAGIみたいになるって。心の中で全てのベンチマークを区別できないから聞いてるんだけど。

└

https://arcprize.org/leaderboard タスクごとに$13.62 - これだと、価格が妥当になるまでにあと5〜10年かかるのかな？でも、本当の問題は、彼らがただベンチマークにモデルを合わせてるだけじゃないかってこと。

└

Arc-AGI（とArc-AGI-2）は、過剰に期待されてるベンチマークだね。名前が全然違う。無駄なビジュアルパズルベンチマーク2って呼ぶべきだよ。ビジュアルパズルだから、人間には簡単だけど、テキストで訓練されたモデルには難しいんだ。さらに、人間が自分で解くのもそんなに明白じゃないし簡単でもない！だから、AIが「Arc-AGI」や「Arc-AGI-2」を解けたら超賢いとか「AGI」だっていうのは、正直言って馬鹿げてる。基本的に意味のないパズルで、モデルが「Arc-AGI」を解けるようになったってだけなんだ。

OTだけど、直感的にはスペクトラムがあると思う - 非思考モデル - 思考モデル - deep thinkやgpt proのようなベストオブNモデル。それぞれ特定の計算の複雑さがあると思う。ちょっと簡略化すると、線形、二次、n^3に対応する感じかな。思考を必要とする問題のクラスがあって、それは必然的にスクラッチパッドに書くことを含むから、思考なしでは解決できないと思う。同じく、探索を含むベストオブNもそうだね。二つのオープンクエスチョンがある。1) ここでの高次のレベルは何か、4つ目の選択肢はあるのか？ 2) 十分に大きな非思考モデルが、小さな思考モデルと同じパフォーマンスを発揮できるのか？

└

ベストオブNモデルのようなdeep thinkやgpt pro そうだね、これらは主に高いコンテキスト長をうまく使うことで実現されてる。すべてのNを集めて、最良のアイデアや部分を選んで最終的な出力をまとめるステップも必要だよ。Googleは有用な長いコンテキストでしばらくの間、SotAだった（2.5からだと思う）。他にも「1Mコンテキスト」を持ってるものはあるけど、10万～20万を超えるとその有用性は微妙だね。maj@nやベストオブNよりも面白いのはpass@nだよ。多くのアプリケーションでは、質問と探索空間を設定することで、pass@nが成功率になることがある。セキュリティの脆弱性発見とか、クイックチェックができる最適化問題（より良いアルゴリズム、カーネル、インフラのルーティングなど）を考えてみて。pass@1やavg@nがどれだけ良くても関係ない、重要なのは時間をかけるほどにもっと見つけることだから。文字通り、問題にお金を投げつけてる感じだね。

└

「十分に大きな非思考モデルは、小さな思考モデルと同じことができるのか？」アンスロピックのモデルは、これに関してはいつも素晴らしいよ。例えば、https://imgur.com/a/EwW9H6q の左上のOpus 4.6は思考なしのモデルだよ。

Hacker Newsで議論の続きを見る

ハクソク