世界を動かす技術を、日本語で。

ジェミニ-2.5-プロ-プレビュー-06-05

概要

  • Gemini 2.5 Pro は、コーディングと複雑なプロンプト処理で最先端を行くAIモデル。
  • マルチモーダル対応長文コンテキスト処理 など、多様な入力形式と大規模データを扱える。
  • Deep Think による強化推論モード搭載で、並列思考技術を活用した高度な推論力を実現。
  • 主要ベンチマークで高得点 を記録し、競合他社と比較して優れた性能を発揮。
  • Google AI Studio やAPIを通じて利用可能、幅広い開発用途に対応。

Gemini 2.5 Proの特徴

  • 最先端のコーディング支援

    • Web開発タスクのコード自動生成
    • 1行プロンプトから実行可能なゲームやアニメーション作成
    • 画像や動画をコード化し、動作シミュレーションを実現
  • マルチモーダル対応

    • テキスト、音声、画像、動画の入力をネイティブで理解
    • 24言語でシームレスな音声出力
    • 音声出力は話し方のニュアンスまで反映
  • 長文コンテキスト処理

    • 最大 100万トークン の入力コンテキスト対応
    • 大規模データセットの解析や複雑なプロンプト処理に最適
  • Deep Think(強化推論モード)

    • 並列思考など最新の推論研究成果を活用
    • 複雑な問題や高度な推論タスクで高いパフォーマンス
  • ベンチマークでの優位性

    • 数学・科学分野(AIME, GPQA等)で高スコア
    • コード生成・編集・エージェンティックコーディングタスクで競合を上回る
    • 事実性や画像・動画理解、長文コンテキスト処理でも高評価

ベンチマーク・パフォーマンス比較

  • 主要AIモデルとの比較

    • OpenAI o3 High, Claude Opus, Grok 3 Beta, DeepSeek R1等と比較し、高い精度とコストパフォーマンス
    • Reasoning, Coding, Factuality, Visual Reasoning, Long Contextなど多角的な評価軸でリード
  • コスト

    • 入力:100万トークンあたり1.25ドル
    • 出力:100万トークンあたり10ドル
    • 競合他社と比較してコスト効率の高さ
  • 対応データ形式・トークン数

    • 入力:テキスト、画像、動画、音声(最大100万トークン)
    • 出力:テキスト(最大64,000トークン)

利用可能な環境・用途

  • Google AI StudioGemini APIGemini App で提供
  • 理由推論コーディング複雑なプロンプト への最適化
  • 実行可能なコード生成インタラクティブなシミュレーション の作成
  • 開発者・研究者向けの強力なAIツール として活用可能

まとめ

  • Gemini 2.5 Pro は、コーディングや複雑な推論が求められる現場で圧倒的な性能を発揮
  • マルチモーダル対応長文処理能力 で幅広いニーズに対応
  • Google AI Studio 等を通じて、誰でも最新AIの力を活用可能

Hackerたちの意見

いろんな日付がついたプレビュー版を出し続けるんじゃなくて、パッチ版を追加してそれを更新すればいいのにって思う。

誰かがそのバージョンを使って何かを作ってるかもしれないから、新しいモデルに置き換えたくないんだよね。

Aiderで82.2、まだo3 highの公式スコアに追いついてないね。 https://aider.chat/docs/leaderboards/

82.2は他のモデルの「正解率」に対応してるのかな?OpenAIがO3を更新したかは分からないけど、リンクされた表を見ると「純粋な」o3(high)は79.6%のスコアがあるみたい。「o3(high)+ gpt-4.1」のコンボが最高スコアの82.7%だね。前のGemini 2.5 Pro Preview 05-06(そう、今の06-05じゃない!)は76.9%だった。これは結構いい上昇だね!でも、これらのAiderのベンチマークは今のところ一番役に立つ/信頼できるベンチマークみたいで、実際に注目してるのはこれだけだよ。

それは今日の新しいプレビューじゃなくて、古い05-06のプレビューだよ。

でも、めっちゃ安くて早い。すごいよね。

同じモデルのプレビュー版が3つもあって混乱するのに、最後の2つの日付が05-06と06-05って、もうちょっと待てばよかったのに:)

あの日付は曖昧だから、13日まで待たなきゃいけなかっただろうね。カナダでは、見かける日付の1/3がイギリスのもので、もう1/3がアメリカのものだから、ほんとに混乱するよ。ありがたいことに、y-m-d形式が今や合法なフォーマットになって、少しずつ浸透してきてるみたい。

エンジニアって、意外と物の名前を付けるのが下手だよね!

最後の2つの日付は05-06と06-05で、明らかにOpenAIの4oとo4モデルを挑発してるね。

いつになったらGemini 2.5 ProからGemini 2.6 Proに移行するんだろう?Gemini 3はもっと大きなモデルになると思うけど。

これがClaude 4 Sonnetとコードでどう比較されるのか気になるな。この表を見ると、かなり劣ってるみたい? https://blog.google/products/gemini/gemini-2-5-pro-latest-pr...

ほとんどのベンチマークはコーディング関連だね。Claudeが高いのはSWE-Benchだけみたい。どのベンチマークが実際の仕事を最も代表してるかは難しいけど、コミュニティはAider Polyglotを好んでるみたいだね。

Googleが前の#1の上にさらに約25 ELOを積み上げたのはすごい!それもGeminiだったしね!とはいえ、リーダーボードがモデルの能力を正確に表してるか疑問に思い始めてる。Geminiはいいモデルだと思うけど、最近2週間でGeminiとClaude Opus 4を使ってみて、Opusはまったく別のレベルだと思った。いくつかの厄介なTypeScriptの問題に直面して、Geminiはしばらくするとぐるぐる回ったり、(こんなの見たことない!)諦めてできないって言ったりした。Opusは同じ問題を楽々解決したよ。これはかなり特異なエピソードで、全体のパフォーマンスを示すものではないかもしれないけど、Geminiは動作させるためにコードをすごく頑張って読もうとするのに対して、Opusは問題に対してクリーンなアプローチを見つける傾向があった。さらに、Opusはもっと想像力があるように感じた?それとも、エージェント的なシナリオでうまく働くように調整されてるのかな?特定のインタラクションの後にDOMをダンプして問題を調べるために一回限りのプレイライトスクリプトを書くようなこともしてたのが特に印象的だった。Geminiはバグを解決するためにコードをすごく一生懸命読もうとするけど、自然に限界があるよね。もう一度言うけど、Geminiは素晴らしいモデルだし、Googleが出したものにはすごく感心してる。4.0が出るまでは、これが一番だって言ってたと思う。

同意する!プログラミングに関しては、Claudeが一番いいモデルだと思う。LLMを使うのはそれだけだから。

o3をその問題に使ってみた?私の使い方では、o3はOpus 4よりもずっと優れてると思うよ。

o3は、ほとんどの場合でOpus 4よりも好きだな。先月だけでAIコード生成ツールに何百ドルも使ったけど、私のランキングはこんな感じ。1. o3 - ニュアンスを捉えるのが本当に上手で、目標の核心に迫るし、質の高いプロダクションレベルのコードに近いものを書いてくれる。唯一の欠点はカットオフウィンドウとコスト、特にツールへの愛が強いところ。私がやってるRailsプロジェクトではあまり大きな問題にはならないけど、時々はそうでもない。2. Opus 4 via Claude Code - これも本当に良いし、o3が高いから日常的に使ってる。よくOpus 4にプランと初期案を考えてもらって、それからo3にフィードバックをもらって本当に良くするようにしてる。3. Gemini 2.5 Pro - この最新リリースはまだ試してないけど、先週まではこれが私の前の2位だった。今はSonnet 4と同じくらいか、ちょっと良いかも。状況によるけどね。4. Sonnet 4 via Claude Code - 悪くはないけど、良いコードを作るにはかなりの指導と監視が必要。放っておくとたくさんのコードを生み出すけど、具体的なプロンプトや修正なしでは質が高くて簡潔で考えられたコードにはならない。私はコードの質やプロジェクトの整理に関して非常にこだわりがあって、命名や再利用性などの小さな詳細にも気を使ってる。先月のCursorの統計から提案されたコードの33%しか受け入れないよ。最適でない道に進む前に、プロンプトを見直して戻ることが多い。

私の経験では、これはケースバイケースでかなり変わる。あるケースではGeminiが問題を解決してくれたけど、次のケースでは簡単なバグも解決できなかった。o3やSonnetも同じ感じ(4.0はあまり試してないから意見はまだないけど)。もっと良い並行評価のサポートが必要だと思う。すべてのトップモデルを評価して、最適な解決策を選べるように。

そうは言っても、リーダーボードがモデルの能力を正確に表しているとは疑い始めている。ここでもGoodhartの法則が当てはまるね。これらの企業がモデルを作るためにどれだけお金を注いでいるかを考えると、なおさらそう感じる。

今週、Claude 4とGemini 2.5に同じタスクを与えてみたんだけど、Geminiが正しい解決策を出して、Claudeはダメだった。これらは難しいタスクじゃなくて、例えばSQLクエリのリライト前後の比較とかだったんだけど、Geminiはちゃんとした問題を見つけて、Claudeは「全部大丈夫」って言ってた。

最近の新しいリーディングモデルに特に感心するには、全てのベンチマークが不正確または無関係だという意見を持つしかないと思う。モデルが本当に何光年も先を行ってるのは雰囲気や逸話の部分だからね。そうじゃないと、例えばlmarenaの数字を見て、2023年11月の時点でgpt-3.5-turboがこの新しい世界トップモデルに対して約16%の好まれる勝率を主張してるのを見てしまう。

しばらくするとGeminiはぐるぐる回ったり、実際に(こんなの見たことない!)諦めて「できません」って言ったりするんだ。マジで、対話を見る方法とか、このシナリオを再現する方法はないの?

Opus 4が私にとって「美しい」コードを初めて生成したモデルだって気づいた。シンプルで読みやすく、コメントで汚れてなくて、余計なものがない、ただきれいでクリーン、機能的なコード。久しぶりに「わお」って思った瞬間があった。ただ、時々本当にバカなことをすることもある。完全にアホなことね。「なんでこんなバカなことしたの?」って聞くと、「ああ、そうだね、これは超間違ってるよ、実際に動く賢い解決策はこれだよ」って返して、すごいコードを作り始める。あの機械がどう動いてるのか全然わからない。

どうやら06-05は、03-25と05-06のリリースの間に感じていたギャップを埋めてくれるみたいだね。

ChatGPT PlusとGemini Proの両方にお金を払ってるんだけど、ChatGPTのサブスクリプションをキャンセルしようか考えてる。レート制限に引っかかりまくるからね。一方で、Gemini/AI Studioではまだレート制限に引っかかったことがないんだ。

AI StudioはAPIを使ってるから、レート制限がめっちゃ高くて、普通の人が有料プレビューモデルを使ってもほとんど到達できないと思う。

Geminiの方がchapgptより断然好きなんだけど、最近プロプランで1日に100メッセージの制限ができちゃったんだよね :( aistudioはまだ大丈夫かも。

前のGeminiモデルは、Claude 3.7 Sonnet(4よりはるかに劣る)と比べても、なんか劣ってると感じた。コーディングアシスタントとして使うにはね。オープンマインドでいるつもりだけど、評価が出るまで急いで試すつもりはないよ。ネット全体がGeminiにすごく期待してるみたいだけど、私の個人的な体験とは全然違ってて驚いてる。陰謀論者みたいに聞こえるかもしれないけど、Gemini周りにはちょっとしたアストロターフ活動を感じるんだよね。

「ネット全体がGeminiにすごく期待してるみたいだけど、私の個人的な体験とは全然違ってて驚いてる。陰謀論者みたいに聞こえるかもしれないけど、Gemini周りにはちょっとしたアストロターフ活動を感じる。」Claudeは使ったことないけど、GeminiはChatGPTやCopilotに比べて一般的な質問にはいつも良い答えを返してくれる印象がある。私の印象は間違ってるかもしれないけど、Geminiは検索の代わりになるような状況では優れていると思う。コマンドラインでこれをどうやるの?この製品について教えて、などの質問には、Geminiの方が良い結果が得られることが多いよ。

AiderではSonnetとGeminiを頻繁に切り替えてる。なぜか私のコーディングの問題の中には、どちらか一方のモデルしか解決できないものがあって、特定のニーズに対してどれを使うべきかのパターンが見えないんだよね。

私の経験では、Geminiのコード(会話も含めて)は全体的にちょっと見栄えが悪いけど、求めた問題を解決するのに、幻覚が少なくて済むことが多い。今はあまり言えないけど、最近は主にClaude CodeとOpus 4を使ってる。

以前のGeminiモデルは、Claude 3.7 Sonnet(4よりもずっと劣る)と比べても、私のコーディングアシスタントとしてはあまり良くなかった。あなたのユースケースは何?私の経験とは全然違うな。Claudeはデータサイエンスや複雑なETLリクエストに関しては失望させるけど、o3は本当に素晴らしいよ。

弁護士として言うけど、Claude 4は最高のライターだし、通常は法的推論のリーダーでもある。ただ、o3はしばしば最高の回答を出してくるし、Geminiは最も徹底的なリサーチャーのように思える。

どちらもかなり互換性があると思うけど、Roo CodeではClaudeがツールをうまく使ってるね。でも、私はGeminiのコーディングスタイルと簡潔さが好き。コメントは多すぎるけどね。時々、どちらかが失敗したり、嫌な方向に進んだりしたら、ミックスして使ったりするよ。

Geminiには、Claudeでは経験しない2つの問題があるんだ。1つ目は、変数名を勝手に変更しちゃうこと。文脈として渡してるだけなのに、変えられちゃうんだよね。2つ目は、時々閉じる角括弧が抜けてること。確かに、変数名を「json」って呼んじゃうのは怠け者だけど、文脈の中で使ってるから、フィードバックはありがたいんだけど、変更を見直すのが難しくなるんだよね(ノイズが多すぎる)。

ChatGPTを使ってて気づいたんだけど、特定の指示を100%無視することがあるんだよね。これって単にLLMの特性なのかな?例えば、ChatGPTに「エムダッシュやエンダッシュを使わないで!」って大声で叫んでも、逆にもっと使うようになる。実際、1回も成功したことがないんだ。最初に無視された後に「同じことをもう一度出力して、でもエムダッシュやエンダッシュはなしで!」って言っても、全然ダメだった。ちゃんと試したわけじゃないけど、12回くらいの試行での経験から言うとこんな感じ。

Geminiは、意味のないバカみたいなインラインコメントを追加するのが好きだよね。「# この機能を追加しました」「# 問題を修正するためにこれを変更しました」って。いや、知ってるよ、私もそこにいたんだから!これはコミットメッセージのためのものであって、1つのPRでしか関係ないコメントじゃないんだよ。

Geminiが間違えた明確な例があるよ:こんなコードの場合、processing_class=tokenizerを「tokenizer=tokenizer」に変え続けるんだ。パラメータ名が変更されたのに、全大文字のコメントを追加しても変わらない。

SFTTrainerを設定する

print("SFTTrainerを設定中...") trainer = SFTTrainer( model=model, train_dataset=train_dataset, args=sft_config, processing_class=tokenizer, # 変更しないで。これが正しいプロパティ名です。 ) print("SFTTrainerの準備完了。") この最新バージョンでは試してないけど、05-06プロはまだ間違ってた。

OpenAIについては、評価の観点から心配し始めるべきだと思う。今や競争が激しくて、もはやリーダーとは言えないかもしれない。どれだけ簡単に資金を調達できるか、興味深いところだね。彼らの評価額はすでに3000億ドルの範囲にあるし、今の収益は相対的に少ないのに、ハードウェアや電気代がどんどん上がってる。次世代のLLMが新しいデータソースを必要とするなら、FacebookやGoogleがそこにうまく位置づけられているように見える。一方でOpenAIは、他の2社とは違って、そういったデータを生成するビジネスを持っていないから、独自のデータセットを巡る競争に負けそうだ。彼らが研究とユーザー向けアプリケーションの両方でリーダーだった頃は、確かにその高い評価に値していたけど、今は新しい資金がOpenAIに何をもたらすのか。3000億ドルの評価でも、典型的なウォール街のアナリストは売上の2倍の評価を望むだろうから、OpenAIが上場する時には6000億ドルの年商が必要ってことになる。もしくは、非常に高いP/E比率、例えば100だとしたら、年間30億ドルの利益が必要で、アナリストはその利益が今後10年で毎年倍増することを期待するだろうね。彼らは、非営利と営利の問題を解決できるかどうかも含めて、上場するのが痛い状況に自らを追い込んでしまったように見える。Googleにはおめでとうと言いたい。彼らは素晴らしい仕事をしていて、AIレースの最大の勝者の一人になりそうだ。

OpenAIは今年の終わりまでに120億ドルの収益を予測してるみたい。Googleがうまく立ち回ってるのには同意するけど、OpenAIが持ってるマインドシェアや製品のアドバンテージは、すごい余裕を与えてくれるよね。

OpenAIは今年127億ドルの収益を予測してるし、2026年には294億ドルになるみたい。編集:俺はバカだから、投稿の後半は無視してね。

現在、画像生成に関してはOpenAIが明らかに優れていると思う。イラストや漫画、家庭プロジェクトのアイデア出しのための写真編集とかね。

たとえAIレースで勝っていても、彼らの検索ビジネスは結局食われることになるだろうし、市場競争のおかげでAIから経済的利益を得られるかどうかも不透明だよね。もちろん、競争せざるを得ないけど、彼らはおそらくAI以前の疑いのない独占状態や広告の視聴者を持っていた方が良かったと思ってるだろうね。

たとえ3000億ドルの評価でも、典型的なウォール街のアナリストは2倍の売上で評価したがるだろうから、OpenAIが上場する時には年間売上6000億ドルを期待することになる。笑っちゃう、これどこから持ってきたの?Microsoftはその半分以下の収益しかないのに、OpenAIの10倍以上の評価を受けてる。収益はこれらの企業が評価される基準じゃないんだよ…。