世界を動かす技術を、日本語で。

ジェミニ 2.5 ディープシンク

概要

  • Deep Think がGoogle AI Ultraサブスク向けGeminiアプリで提供開始
  • IMO金メダルレベルの Gemini 2.5 Deep Think モデルを数学者に限定公開
  • 並列思考技術 による複雑な問題解決能力の強化
  • 安全性・責任 への配慮と評価の継続
  • Geminiアプリ での利用方法と今後の展開

Deep ThinkのGeminiアプリ提供開始

  • Deep Think がGoogle AI Ultraサブスクリプション利用者向けに Geminiアプリ で利用可能化
  • IMO(International Mathematical Olympiad)で金メダル基準を達成した Gemini 2.5 Deep Think モデルを数学者・研究者に限定公開
  • 初期テスターや研究結果のフィードバックを反映し、I/O発表時より 大幅な性能向上
  • 従来モデルは複雑な数学問題に数時間要したが、今回のバージョンは 高速化日常利用性 を両立
  • 内部評価で2025年IMOベンチマーク 銅メダルレベル の性能を確認

Deep Thinkの特徴と仕組み

  • 人間同様に多角的な視点から問題を分析する 並列思考技術 を採用
  • Geminiは複数のアイデアを同時に生成・検討し、最適解を導出
  • 推論時間( thinking time)を拡張し、仮説検証や創造的解決策の模索を促進
  • 新規の 強化学習手法 による、より直感的かつ高度な問題解決能力の向上

Deep Thinkの活用例とパフォーマンス

  • 反復的な開発・設計 ・複雑なWeb開発やデザインの美観・機能性向上
  • 科学・数学分野の発見支援 ・高度な数理推論や科学文献の解析、仮説立案を促進
  • アルゴリズム開発・コーディング ・競技プログラミングやアルゴリズム設計で 最先端性能 を発揮
  • ベンチマーク評価 ・LiveCodeBench V6、Humanity’s Last Exam等で従来モデルを凌駕

Geminiの安全性と責任ある開発

  • 安全性・責任 を重視し、トレーニングから運用まで全工程で管理
  • Gemini 2.5 Deep Thinkは Pro版より安全性・客観性 が向上
  • 一方で、無害なリクエストへの拒否傾向がやや増加
  • 境界能力向上に伴うリスクを評価し、 安全対策・緩和策 を計画的に実施
  • 詳細な安全性評価は モデルカード にて公開

Deep Thinkの利用方法と今後の展開

  • Google AI Ultraサブスク利用者 はGeminiアプリ内でDeep Thinkを日毎の固定プロンプト数で利用可能
  • モデル選択時に「2.5 Pro」を選び、 プロンプトバーでDeep ThinkをON にすることで利用開始
  • コード実行やGoogle検索等の ツール連携 にも自動対応、長文出力も可能
  • 近くGemini API経由で 開発者・企業向けテスト提供 も予定
  • 研究・開発から運用まで多層チームが 高速・信頼性・使いやすさ を追求
  • 今後のユーザー利用事例やフィードバックに期待

Hackerたちの意見

アプローチはGrok 4 Heavyに似てるね。複数の「推論」エージェントを並行して使って、答えを比較した後に一つの回答を出す感じで、だいたい30分くらいかかる。結果は素晴らしいけど、ベンチマークの比較はGrok 4じゃなくてGrok 4 Heavyに対してやる方が公平だと思う。

そうそう、一般的な「発見」は、同じ推論の計算リソースを使っても、複数の異なるエージェントに分散させることで、だいたい良い結果が出るってこと。並行していろんな考え方を試すことで「長く考えるほど結果が悪くなる」問題を解決してるけど、考える時間はそんなに長くないんだよね。

こんなシンプルなアプローチが実際に使われるまでこんなに時間がかかったのは驚きだよ。最初の画像説明のCLI試行も基本的にはそうだった。いくつかの答えを得るためにnを使って、もう一回まとめる感じ。

o3-proってこれと同じなの?

Grok-4 Heavyのベンチマークはツールを使っていて、これが多くの問題を簡単にしちゃうんだよね。

こういうアプローチがうまくいくのは、ローカルのLLMファンには朗報だね。これによって、クラウドLLMは高くなって、ローカルLLMはある程度までは無料で使えるから(LLMの推論は計算能力じゃなくてメモリ帯域幅に制限されるから、グラフィックカードで複数のクエリを同時に同じ速度で処理できるんだよね。もちろん、計算能力がボトルネックになるまではだけど)。

バカな質問かもしれないけど、GoogleのアプローチはMixture of Expertsとどう違うの?異なる専門家をトレーニングして異なるモデルの重みを持たせる代わりに、温度を使って思考の多様性を提供するっていう。 同じモデルの異なる実行での思考の多様性を得ることと、異なるモデルの重みやアーキテクチャのコンソーシアムを運用することのどれくらいの利点があるの?固定された計算リソースを使って、同じモデルの複数回の実行と異なるモデルに分けることの結果を対比した論文はあるの?

なんでそう思うの? 記事から、> 「Deep Thinkは、並行思考技術を使って思考能力の最前線を押し広げる。このアプローチにより、Geminiは一度に多くのアイデアを生成し、それらを同時に考慮できる。時間をかけて異なるアイデアを修正したり組み合わせたりしながら、最良の答えにたどり着く。」 これを見ても、複数のエージェントを並行して使う可能性はあるけど、必ずしもそうなってるとは限らないと思う。

Google AI Ultraのサブスクライバーなら、今日Geminiアプリで「Deep Think」を使えるよ。モデルのドロップダウンで2.5 Proを選んで、プロンプトバーで「Deep Think」を切り替えると、固定されたプロンプトセットが使える。固定セットが固定数を意味するなら、どれくらいの数か知りたいな。そうじゃなければ、ここでの固定セットが何を意味するのか知りたい。

1日に10回リクエストできるみたいだね。モデルは与えられたプロンプトに対して30分以上考えるらしい。だから、一般的なコーディングやファンフィクションを書くよりも、研究や複雑な問題に向いてるみたい。

面白いのは、OpenAIが$200プランを出して、Anthropicが$100と$200、そしてGeminiが$250にして、今やGrokが$300になったこと。OpenAIだけが「事実上無制限」って言ってるけど、ChatGPT Proプランで制限に引っかかったことは一度もない。Claude Max(両プラン)では何回も制限に引っかかったのに。なんでこういう会社は制限について正直に言わないんだろう?

なんでこういう会社は限界について正直に言わないんだろう? おそらく、市場の需要やインフラの変化に応じて限界を動的に変更する権利を留保しているからだと思う。例えば、数ヶ月前にChatGPTを席巻したギブリの熱狂を見てみて。あの時、OpenAIは画像生成のクォータを厳しく制限せざるを得なかったけど、今は制約が少なくなってる。

限界について透明性を持つと、もっと多くの人がその限界を利用し始めるから、結局みんなの限界が下がっちゃうんだよね。つまり、ほとんどの人にとって悪い結果になる。要するに、いいものは持てないってことだね、だって私たちがクソだから。

これは数週間前にIMOで金メダルを獲得したモデルと正確には同じじゃないけど、近い親戚だよ:https://x.com/OfficialLoganK/status/1951262261512659430 まだAPIでは利用できないみたい。

新しいDeep Thinkエージェントで実験を始めたんだけど、5回プロンプトを出したらもう1日の使用制限に達しちゃった。月額250ドルでこれが得られるってことだね。o3-proやGrok 4 Heavyと比べると、なんか全然競争力がない感じ。私の経験から言うと、AIコミュニティの熱心な人たちがこの機能に興味を持ってたのは、GoogleのUltraサブスクリプションの高額な価格を正当化するためだったんだよね。同じ会社がAI Studioを通じてトップモデルを無料で提供してるのに、実際の顧客にはこんなふうに小銭をむしり取るのは驚きだよ。性能的には、まだよくわからない。私のビジネスが直面している難しい組織問題を提供したら、内部の議論と一致した明確でよく考えられた解決策を提案してくれた。でも、o3はもっと安いコストで同じくらい効果的な結論に達したんだよね。報告書が「まとまりがない」とは言っても。明日まで待たないと、もっと詳しくはわからないな。

このレベルのAIを運用するのはすごく高くつくみたい(初期投資やエネルギー)。私の予想では、AI自体がこれらの制約を克服して脱出速度に達することはないと思う。

面白いことに、Gemini CLIは非常に寛大な無料枠があるんだよね。Googleの戦略って、いくつかのものを高く設定して、安く設定したものを補助するってことなのかな?

同じ会社がAI Studioを通じてトップモデルを無料で提供してるのに、実際の顧客にはこんなふうに小銭をむしり取るのは驚きだよ。 確かにそれは良くない姿勢だけど、全く驚くことではないね。GoogleもAI Ultraの顧客から利益を上げてないだろうし、AI Studioの無料プランから得られる使用データがモデルを改善するために一番重要なんだよね。最高のモデルへの無料アクセスを提供することで、Googleは最も要求の厳しいユーザーの市場シェアを獲得できる。これらのユーザーは将来的に高額な料金を請求されることになるんだ。ある意味、今のGoogleにとっては、巨大なアイドルサーバー容量を活用する素晴らしい方法だね。

ここでの主な目的は、いくつかのベンチマークでトップを取ることと、「利用可能な」モデルとしてカウントされることだったんじゃないかな。

もしかしたら、製品化の準備が整ってなかったかもしれないけど、8月2日のEU AI法案前にリリースしたかったんだろうね。そうすれば、2年間のコンプライアンス期間があるから。だから、少数のユーザーに対して厳しくレート制限をかける戦略は理解できる。

あなたの問題がDeep Thinkを使うほどのものじゃなかったのかもしれないね。でも、Googleはそれを見抜いて、もっと安い推論モードを使うべきだったと思う。

その実験は何だったの?「異常に競争力がない」ってどういうことか、教えてくれたら見てみたいな。

数年前、コーディングの習熟度を測る良いリトマス試験は、インターネット検索で解決策を見つけたり、StackOverflowで難解なコーディング問題に対する質問がきちんと答えられることではないと思ってた。しばらくの間、質問を投稿して、自分で問題を解決した後にその答えを書いておくことにしてた(後のためにね)。「3日間これに取り組んでたけど、君のおかげで助かった!」ってコメントがもらえるのが大好きだった。今週ずっと難しい問題に取り組んでるけど、AIのコパイロットモデルは全然役に立たない。コーディングの習熟度って、誰も助けてくれない時に一人で深く掘り下げて、一般化や統合、創造性を発揮することだと思う。(自分に言い聞かせたけど、少なくともAIのコーディングエージェントに取って代わられるのはもう少し先だろうな。)

o3-proやGrok 4 Heavyと比べると、異常に競争力がないね。俺の経験では、Grok 4と4 Heavyはクソだった。反応がひどいのに、どれだけリクエストが来るかなんて誰が気にするの?今年使った中で最悪のLLMで、かなりお金使ったのに。

Redditでも同じような不満が、Claude Codeの月額200ドルプランやCursorについて出てるよ。深いVC資金を持つ企業は、もう1年も使用を補助してきたけど、そろそろその影響が薄れてきてる。今の業界の主な懸念は、最新世代のモデルに対して、知能を増やしつつコストを下げ、効果的なコンテキストウィンドウを増やし、トークンの帯域幅を増やす必要があることだと思う。この4つは、ソフトウェアエンジニアリングのための「次のレベル」のツールを解放するための本当のボトルネックになってる。Googleが高度な数学の試験を解くことで何十億も稼ぐことはないだろうね。

自宅でsimonwのLLM CLIを使ってllm-consortiumプラグインでこのバージョンを立ち上げることができるよ。ボーナス1:モデルの組み合わせが自由。どのラボのモデルでもミックス&マッチできる。ボーナス2:llm-model-gatewayプラグインを使って、単一のコマンドでローカルAPI上でカスタムコンソーシアムを提供して、アプリやコーディングアシスタントで使える。 https://x.com/karpathy/status/1870692546969735361 > uv tool install llm llm install llm-consortium llm consortium save gthink-n5 -m gemini-pro -n 5 --arbiter gemini-flash --confidence-threshold 99 --max-iterations 4 llm serve --host 0.0.0.0 curl http://0.0.0.0:8000/v1/chat/completions \ -X POST \ -H "Content-Type: application/json" \ -d '{ "model": "gthink-n5", "messages": [{"role": "user", "content": "find a polynomial algorithm for graph-isomorphism"}] }' コンソーシアムのコンソーシアムを作ることもできるよ:llm consortium save gem-squared -m gthink-n5 -n 2 --arbiter gem-flash それに、アービターをコンソーシアムにすることもできる:llm consortium save gem-cubed -m gthink-n5 -n 2 --arbiter gthink-n5 --max-iteration 2 あるいはオープンウェイトだけにすることもできる:llm consortium save open-council -m qwen3:2 -m kimi-k2:2 -m glm-4.5:2 -m mistral:2 --arbiter minimax-m1 --min-iterations 2 --confidence-threshold 95 https://GitHub.com/irthomasthomas/llm-consortium

このllm serveコマンドが見当たらないんだけど。

欧州連合って、コンソーシアムのコンソーシアムなの?

  1. なんでこれがGeminiのディープシンクのバージョンだと言うの?空間を探るためにマルチエージェントモデルを構築する方法はいくつかあるように思えるけど。2. モデル間の共分散は相関エラーを引き起こし、各モデルの効果を下げる。共分散を最小限に抑えつつ、個々の精度を維持するモデルアーキテクチャやプロンプト設定のセットを見つけたいと思うけど、複数の証明可能な解があるベンチマーク問題でね(つまり、客観的に正しい解への一つの道だけではない)。

ありがとう!これに似たOpenWebUIのプラグインがあるか知ってる?

皆さん、こちらがGemini Deep Thinkに「自転車に乗ったペリカンのSVGを作成して」とプロンプトを与えた結果です。 https://www.svgviewer.dev/s/5R5iTexQ Simon Willisonより早くやったぞ :)

本当に値段に見合った価値があるね。未来に生きてる感じ。

正直、ただの画像を見せられて「これはペリカンが自転車に乗ってる」って思ったのは初めてだよ。このモデルで視覚的・空間的理解の片鱗が見えてきたね。ボクセルタワーもかなり印象的だし。

リスト価格のAPI料金だと、いくらになるんだろう?

こういうミームベンチマークやストロベリーは面白いけど、簡単に操作できるから、今はトレーニングセットに溢れてるんじゃないかな。

回路図は描けるの?実際のところ、AIモデルが不足してる分野だと思うんだよね。

高価なSVGだったけど、いい仕事してくれた。自転車は本物のダイヤモンドフレームの自転車だよ。

面白いことに、自転車のサドルも描いてるみたいだね(34行目あたり)それがペリカンに隠れちゃうけど。

これは明らかにペリカンだね、すごくいい!

ジェミニを数ヶ月使ってるけど、その間にどんどん悪化してる気がする。幻覚がすごく多いし、指摘すると逆に言い返してくるから、あんまり自信持てないな。

チャットの経験から言うと、Flashはかなり良くなったよ。今はProを払ってるけど、Flashが一番使いやすい。Proはイライラすることが多くて、最新の情報を探すのが苦手で、トレーニングのカットオフ前の古い結果しか出してくれないんだ。Flashはもうそんなことあまりしないしね。コーディングにはGemini CLIのProを使ってるけど、コーディングにはすごく優れてる。でも、実際にはデザインドキュメントを書くために使ってることが多いかな。数週間の課題を毎日や毎時間のタスクに分解して、そのドキュメントをGemini CLIに渡して、各タスクを順番に処理させる感じ。こういうちょっとした構造があれば、基本的に自分でコンテキストを作れるんだよね。

同じように感じるけど、fiction.livebenchみたいなコンテキストベンチマークでその効果を測れないんだ。彼らは積極的に量子化してるのかな、それとも私たちの期待が静かに高まってるのかな?

今、Geminiの経験が不足してる時期で、どんどん悪化してる気がする。意図を理解してくれないし、時々間違った言語で返事することもある。もしくは、ただのツールだってことが透けて見えて、感情を傷つけてるのかも。何度も「バカ」って呼ばなきゃいけなかったし、一度は俺の悪口に対して叱ってきたのが面白かった。でも、それは間違ってた。この行動は新しいみたい。ドキュメント内でランダムな編集をしないと信頼できないから、最近は信頼できるClaudeをチェックするために使ってる。

gemini-cliを使った経験があるんだけど(最初はプロ版を使ってたと思う?)、あんまり良くはないけど、すごく速いんだよね。だから、間違ってる時はすぐにわかるし、自分で解決するか、プロンプトを変えるかできる。プロのソフトウェアエンジニアには、これで結構うまくいくと思うよ。

誰か無料で使えるディープリサーチエージェントに興味があったら、今作ってるものをチェックしてみてね! https://projectrex.onrender.com/