ジェミニ 2.5 ディープシンク

2025年8月1日原文(blog.google)

概要

Deep Think がGoogle AI Ultraサブスク向けGeminiアプリで提供開始
IMO金メダルレベルの Gemini 2.5 Deep Think モデルを数学者に限定公開
並列思考技術 による複雑な問題解決能力の強化
安全性・責任 への配慮と評価の継続
Geminiアプリ での利用方法と今後の展開

Deep ThinkのGeminiアプリ提供開始

Deep Think がGoogle AI Ultraサブスクリプション利用者向けに Geminiアプリ で利用可能化
IMO（International Mathematical Olympiad）で金メダル基準を達成した Gemini 2.5 Deep Think モデルを数学者・研究者に限定公開
初期テスターや研究結果のフィードバックを反映し、I/O発表時より 大幅な性能向上
従来モデルは複雑な数学問題に数時間要したが、今回のバージョンは 高速化 と 日常利用性 を両立
内部評価で2025年IMOベンチマーク 銅メダルレベル の性能を確認

Deep Thinkの特徴と仕組み

人間同様に多角的な視点から問題を分析する 並列思考技術 を採用
Geminiは複数のアイデアを同時に生成・検討し、最適解を導出
推論時間（ thinking time）を拡張し、仮説検証や創造的解決策の模索を促進
新規の 強化学習手法 による、より直感的かつ高度な問題解決能力の向上

Deep Thinkの活用例とパフォーマンス

反復的な開発・設計 ・複雑なWeb開発やデザインの美観・機能性向上
科学・数学分野の発見支援 ・高度な数理推論や科学文献の解析、仮説立案を促進
アルゴリズム開発・コーディング ・競技プログラミングやアルゴリズム設計で 最先端性能 を発揮
ベンチマーク評価 ・LiveCodeBench V6、Humanity’s Last Exam等で従来モデルを凌駕

Geminiの安全性と責任ある開発

安全性・責任 を重視し、トレーニングから運用まで全工程で管理
Gemini 2.5 Deep Thinkは Pro版より安全性・客観性 が向上
一方で、無害なリクエストへの拒否傾向がやや増加
境界能力向上に伴うリスクを評価し、 安全対策・緩和策 を計画的に実施
詳細な安全性評価は モデルカード にて公開

Deep Thinkの利用方法と今後の展開

Google AI Ultraサブスク利用者 はGeminiアプリ内でDeep Thinkを日毎の固定プロンプト数で利用可能
モデル選択時に「2.5 Pro」を選び、 プロンプトバーでDeep ThinkをON にすることで利用開始
コード実行やGoogle検索等の ツール連携 にも自動対応、長文出力も可能
近くGemini API経由で 開発者・企業向けテスト提供 も予定
研究・開発から運用まで多層チームが 高速・信頼性・使いやすさ を追求
今後のユーザー利用事例やフィードバックに期待

Hackerたちの意見

アプローチはGrok 4 Heavyに似てるね。複数の「推論」エージェントを並行して使って、答えを比較した後に一つの回答を出す感じで、だいたい30分くらいかかる。結果は素晴らしいけど、ベンチマークの比較はGrok 4じゃなくてGrok 4 Heavyに対してやる方が公平だと思う。

└

そうそう、一般的な「発見」は、同じ推論の計算リソースを使っても、複数の異なるエージェントに分散させることで、だいたい良い結果が出るってこと。並行していろんな考え方を試すことで「長く考えるほど結果が悪くなる」問題を解決してるけど、考える時間はそんなに長くないんだよね。

└

こんなシンプルなアプローチが実際に使われるまでこんなに時間がかかったのは驚きだよ。最初の画像説明のCLI試行も基本的にはそうだった。いくつかの答えを得るためにnを使って、もう一回まとめる感じ。

└

o3-proってこれと同じなの？

└

Grok-4 Heavyのベンチマークはツールを使っていて、これが多くの問題を簡単にしちゃうんだよね。

└

こういうアプローチがうまくいくのは、ローカルのLLMファンには朗報だね。これによって、クラウドLLMは高くなって、ローカルLLMはある程度までは無料で使えるから（LLMの推論は計算能力じゃなくてメモリ帯域幅に制限されるから、グラフィックカードで複数のクエリを同時に同じ速度で処理できるんだよね。もちろん、計算能力がボトルネックになるまではだけど）。

└

バカな質問かもしれないけど、GoogleのアプローチはMixture of Expertsとどう違うの？異なる専門家をトレーニングして異なるモデルの重みを持たせる代わりに、温度を使って思考の多様性を提供するっていう。同じモデルの異なる実行での思考の多様性を得ることと、異なるモデルの重みやアーキテクチャのコンソーシアムを運用することのどれくらいの利点があるの？固定された計算リソースを使って、同じモデルの複数回の実行と異なるモデルに分けることの結果を対比した論文はあるの？

└

なんでそう思うの？記事から、> 「Deep Thinkは、並行思考技術を使って思考能力の最前線を押し広げる。このアプローチにより、Geminiは一度に多くのアイデアを生成し、それらを同時に考慮できる。時間をかけて異なるアイデアを修正したり組み合わせたりしながら、最良の答えにたどり着く。」これを見ても、複数のエージェントを並行して使う可能性はあるけど、必ずしもそうなってるとは限らないと思う。

Google AI Ultraのサブスクライバーなら、今日Geminiアプリで「Deep Think」を使えるよ。モデルのドロップダウンで2.5 Proを選んで、プロンプトバーで「Deep Think」を切り替えると、固定されたプロンプトセットが使える。固定セットが固定数を意味するなら、どれくらいの数か知りたいな。そうじゃなければ、ここでの固定セットが何を意味するのか知りたい。

└

1日に10回リクエストできるみたいだね。モデルは与えられたプロンプトに対して30分以上考えるらしい。だから、一般的なコーディングやファンフィクションを書くよりも、研究や複雑な問題に向いてるみたい。

面白いのは、OpenAIが$200プランを出して、Anthropicが$100と$200、そしてGeminiが$250にして、今やGrokが$300になったこと。OpenAIだけが「事実上無制限」って言ってるけど、ChatGPT Proプランで制限に引っかかったことは一度もない。Claude Max（両プラン）では何回も制限に引っかかったのに。なんでこういう会社は制限について正直に言わないんだろう？

└

なんでこういう会社は限界について正直に言わないんだろう？おそらく、市場の需要やインフラの変化に応じて限界を動的に変更する権利を留保しているからだと思う。例えば、数ヶ月前にChatGPTを席巻したギブリの熱狂を見てみて。あの時、OpenAIは画像生成のクォータを厳しく制限せざるを得なかったけど、今は制約が少なくなってる。

Hacker Newsで議論の続きを見る

ハクソク