世界を動かす技術を、日本語で。

ジェミニ3 ディープシンク

概要

  • Gemini 3 Deep Think が大幅アップグレード
  • 科学・研究・工学分野 の課題解決に特化
  • Google AI Ultra サブスクライバーがGeminiアプリで利用可能
  • 研究者・エンジニア・企業向けに Gemini API 経由の早期アクセス提供
  • 数学・物理・化学・工学で世界トップレベルの実績

Gemini 3 Deep Think:科学・工学課題解決の新時代

  • Gemini 3 Deep Think は、現代の 科学・研究・工学分野 での複雑な課題解決を目指す 高度推論モード の最新バージョン
  • 科学者・研究者との連携 を通じて、明確な正解が存在しない、もしくはデータが不完全な問題に対応
  • 深い科学知識実用的な工学的応用 を融合し、理論から実践への橋渡しを実現

主な利用事例

  • Rutgers University のLisa Carbone氏:高エネルギー物理学向け数学論文のレビューに活用し、人間の査読を通過した微妙な論理的誤りを特定
  • Duke University Wang Lab :半導体材料発見のための結晶成長プロセス最適化に利用し、100μm超の薄膜成長レシピを設計
  • Google Platforms and Devices のAnupam Pathak氏:物理部品設計の加速に活用

数学・プログラミング分野での実績

  • Humanity’s Last Exam で新標準(48.4%、ツール未使用)を達成
  • ARC-AGI-2 で前例のない84.6%(ARC Prize Foundation認証)
  • Codeforces (競技プログラミング)でElo 3455を記録
  • 国際数学オリンピック2025 で金メダルレベルの成績

科学分野での拡張

  • 物理・化学オリンピック2025 の筆記セクションで金メダル級の成果
  • CMT-Benchmark (理論物理)で50.5%のスコアを達成

実世界の工学応用

  • 複雑なデータ解析物理システムのモデリング をコード化し、研究者・エンジニアの実務を支援
  • スケッチから3Dプリント可能な現実物体 への変換が可能
    • 図面を解析し、複雑な形状をモデリング、3Dプリント用ファイルを自動生成

利用方法

  • Google AI Ultraサブスクライバー はGeminiアプリで即日利用可能
  • 研究者・エンジニア・企業は Gemini API 経由の早期アクセスプログラムに申し込み可能(詳細は公式案内参照)

まとめ

  • Gemini 3 Deep Think は、最先端の推論力と実用性を兼ね備えたAI
  • 数学・科学・工学 の最難関課題に挑戦し、現場の研究・設計を革新
  • 今後の進化と応用例 に期待

Hackerたちの意見

こちらがすべてのベンチマークの方法論です: https://storage.googleapis.com/deepmind-media/gemini/gemini_... arc-agi-2のスコアは84.6%で、これはセミプライベート評価セットからのものです。もしgemini-3-deepthinkがプライベート評価セットで85%以上を取ったら、「解決済み」と見なされます。 >「ARC-AGI-2プライベート評価セットで85%のスコアを出す解決策を提出すれば、70万ドルがもらえる。」 https://arcprize.org/guide#overview

面白いことに、そのPDFのタイトルは「Gemini 3.1 Pro」って呼ばれてる。もうすぐ発表されるのかな。

gemini-3-deepthinkがプライベート評価セットで85%以上取れたら、「解決済み」と見なされるんだって。でも、プライベートセットでそれを達成することはないだろうね。そうなったら、Googleに漏れたってことになるから。

Arc-AGI-2: 84.6%(Opus 4.6は68.8%)すごいね。 https://blog.google/innovation-and-ai/models-and-research/ge...

終わったね。

まあ、公平な比較をするなら、GPT-5.x Proと比べるべきだね。これはGemini Deep Thinkと同じクラスのモデルだし。

1年前、最先端のモデルでやっと1-10%の成果を出してたのに、それが最終ボスだって言われてたよね。これを解決すればほぼAGIみたいになるって。心の中で全てのベンチマークを区別できないから聞いてるんだけど。

https://arcprize.org/leaderboard タスクごとに$13.62 - これだと、価格が妥当になるまでにあと5〜10年かかるのかな?でも、本当の問題は、彼らがただベンチマークにモデルを合わせてるだけじゃないかってこと。

Arc-AGI(とArc-AGI-2)は、過剰に期待されてるベンチマークだね。名前が全然違う。無駄なビジュアルパズルベンチマーク2って呼ぶべきだよ。ビジュアルパズルだから、人間には簡単だけど、テキストで訓練されたモデルには難しいんだ。さらに、人間が自分で解くのもそんなに明白じゃないし簡単でもない!だから、AIが「Arc-AGI」や「Arc-AGI-2」を解けたら超賢いとか「AGI」だっていうのは、正直言って馬鹿げてる。基本的に意味のないパズルで、モデルが「Arc-AGI」を解けるようになったってだけなんだ。

OTだけど、直感的にはスペクトラムがあると思う - 非思考モデル - 思考モデル - deep thinkやgpt proのようなベストオブNモデル。それぞれ特定の計算の複雑さがあると思う。ちょっと簡略化すると、線形、二次、n^3に対応する感じかな。思考を必要とする問題のクラスがあって、それは必然的にスクラッチパッドに書くことを含むから、思考なしでは解決できないと思う。同じく、探索を含むベストオブNもそうだね。二つのオープンクエスチョンがある。1) ここでの高次のレベルは何か、4つ目の選択肢はあるのか? 2) 十分に大きな非思考モデルが、小さな思考モデルと同じパフォーマンスを発揮できるのか?

ベストオブNモデルのようなdeep thinkやgpt pro そうだね、これらは主に高いコンテキスト長をうまく使うことで実現されてる。すべてのNを集めて、最良のアイデアや部分を選んで最終的な出力をまとめるステップも必要だよ。Googleは有用な長いコンテキストでしばらくの間、SotAだった(2.5からだと思う)。他にも「1Mコンテキスト」を持ってるものはあるけど、10万~20万を超えるとその有用性は微妙だね。maj@nやベストオブNよりも面白いのはpass@nだよ。多くのアプリケーションでは、質問と探索空間を設定することで、pass@nが成功率になることがある。セキュリティの脆弱性発見とか、クイックチェックができる最適化問題(より良いアルゴリズム、カーネル、インフラのルーティングなど)を考えてみて。pass@1やavg@nがどれだけ良くても関係ない、重要なのは時間をかけるほどにもっと見つけることだから。文字通り、問題にお金を投げつけてる感じだね。

「十分に大きな非思考モデルは、小さな思考モデルと同じことができるのか?」 アンスロピックのモデルは、これに関してはいつも素晴らしいよ。例えば、https://imgur.com/a/EwW9H6q の左上のOpus 4.6は思考なしのモデルだよ。

Googleは完全に先を行ってるね。彼らがやった最大のトリックは、人々に自分たちが遅れていると思わせることだった。

トリック?笑、ありえない。Alphabetは純粋なテック企業で、技術を利用可能にするために製品を作らなきゃいけない。後者が本当に不足してるし、彼らのVPのやり取りを見るとそれがよくわかる。幸運なことに、技術で十分なリードを作り始めれば、製品の問題を解決するチャンスがたくさん得られるんだ。

最初の画像の黒いナチスたちは、インサイダー取引の原因だったよ。

ジェミニのUX(もちろん、Googleのプライバシーの信頼性も含めて)は、すべてのAIアプリの中で最悪だよ。一般の人から見れば、UIが勝負だから、チャットGPTのがまだ一番だね。

まだエージェント向けのワークフローには対応してないみたいだけど、エージェントフレンドリーなものが出たらめっちゃ素晴らしいだろうね。超楽しみ!

みんながLLMに置き換えられたいって必死になってるのが本当に変だよ。エージェントのワークフローが十分に良くなったら、自分の仕事が守れると思ってるの?それとも給料が50%減るのは避けられると思ってるの?エージェントが十分に良くなったら、あなたのために利益の出るスタートアップができるわけじゃないよ(LLMのスロットマシンで何かやってると思ってる人たちがいるけど)。それは、他の誰でもそのエージェントにアクセスできれば、あなたをコピーできるってことだから。彼らはそういう風に設計されてるんだ…知的財産や著作権を洗浄するために。こういう技術に興奮してる人を見るのが変だよ。これは良いことじゃない。私たちの労働力は、GoogleやAnthropic、OpenAIが所有する資産に置き換えられるだけだよ。みんな同じバリスタの仕事や、悲惨な工場の仕事を争うことになる。これらのCEOが「職業学校に行くのがクールだ」とか「工場で働くために強いアメリカの労働者が必要だ」とか言ってるのを見て、気をつけてね。

パラメータサイズとかのモデルアーキテクチャの詳細って、何かもらえるのかな?数ヶ月前はもっとこの話をしてたのに、今はモデルの能力についてばっかりだね。

正直、君が何を言いたいのかよくわからないな。フロンティアラボはGPT-3.5以降、アーキテクチャを秘密にしてるし。

ディープマインド(他のラボも)も、ファーストプルーフで自分たちのフロンティア(プライベート)モデルを試すだろうね。Gemini Deep Thinkがどうなるか気になるな。俺の予想では、いくつかの問題で半分くらいはできると思う。でも、ネガティブな結果を発表したくないから、失敗として受け入れなきゃいけないだろうね。科学研究にとってはそれがすごく重要なのに。 [1] https://1stproof.org/

1st proofのオリジナルソリューションが約24時間後に公開される予定らしいよ。

GoogleのDeep Thinkモデルが本当に違うモデルだとは思えないんだよね。単に古いモデルをもっと多くの並列サブエージェントで動かしてるだけなんじゃないかな。それは、彼らのベースモデルとオープンコードを使えば自分でもできることだし。

それをやった後、1000のサブエージェントの出力をどうやって一つにまとめるの?(ここで皮肉を言ってるわけじゃないよ、これは簡単じゃない問題だと思う)

Geminiは素晴らしかったのに、今はゴミだね。コードを削ること以外に何もできないし、機能を落としたり、何かを失ったり、入れたコードよりも少ないものを返してくる。数ヶ月間トップにいたのに、今は全然使ってない。開発してる時にそんなものが欲しい理由がないから。私は有料のサブスクだけど、もう意味がないから、Claude 4.6にお金を使うことにするよ。