A/Bテストを通じて発見された「Gemini 3.0」

2025年10月17日原文(ricklamers.io)

概要

Gemini 3.0 の噂とA/Bテストによる実際の利用体験
Google AI Studio でのSVG生成タスクを通じたモデル評価
SVG画像 （Xbox 360コントローラー）の品質比較
モデルIDやレスポンス特性の観察
Gemini 2.5 Proとの A/Bテスト結果 の簡易まとめ

Gemini 3.0のA/Bテスト体験と評価

Gemini 3.0 はAI分野で最も注目されているリリースの一つ
Google AI Studio のA/Bテスト経由で一部ユーザーがアクセス可能との噂
SVG生成タスク （例：Xbox 360コントローラー）の品質がモデル評価の効率的な指標
@simonw による「pelican riding a bicycle」テストの有用性が示唆
実際にA/Bテスト画面に遭遇し、 他モデルより高品質なSVG 画像を取得
使用プロンプト例：
- Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block. Like this: svg ...
Gemini 3.0 のモデルID：ecpt50a2y6mpgkcn（バージョン特定には不十分）
Gemini 2.5 Proを選択したため、おそらく Gemini 3.0 Pro との比較と推測
Gemini 3.0 FlashとGemini 2.5 Proの比較は非効率と考察

Gemini 3.0の出力特性とパフォーマンス

TTFT（初回応答時間） が約24秒長い傾向
出力長 が約40%増加（推論トークン含むと推測）
GPT-5 Pro のような極端な計算リソース消費は見られず

Gemini 2.5 ProとのA/Bテスト結果

Gemini 3.0 のSVG生成能力が明らかに向上
出力の 質と詳細さ でGemini 2.5 Proを上回る印象
A/Bテスト による直接比較で、ユーザー体感の違いが明確

まとめ

Gemini 3.0 はSVG生成や推論能力で着実な進化
Google AI Studio を活用したA/Bテストが新モデル評価の有効手段
出力品質や応答特性の違いから、 Gemini 3.0 の実力が実証

Hackerたちの意見

もう約1ヶ月続いてるけど、いつもの憶測の中でいろんなチェックポイントがあるね。今のところ、公式発表を待ってから判断した方がいいと思う。リリースプランがどうなるのか、チェックポイントがPro、Flash、Flash Liteの代わりになるのか、新しいモデルのカテゴリーなのか、全くリリースされないのか、などはわからないからね。もっと重要なのは、AIStudioのA/Bテストのやり方によって、得られる出力は単一のプロンプトに対するものだけだってこと。個人的には、スピードやレイテンシ、プロンプトの遵守について基本的な理解を得る以外は、単一のプロンプトからの出力は日常のパフォーマンスを測るには良い指標じゃないと思ってる。もちろん、マルチファイルの取り込みやツールコールの扱いについては何も教えてくれないし、ハイプはハイプだよね。単一プロンプトのA/Bテストの出力だけでパフォーマンスを評価する人がいるのは、モデルのパフォーマンスを評価する際のプロ意識の欠如を示してると思う。Gemini 3.0モデルが競争力を持つ可能性があるとは言ってないけど、過剰な期待や失望に巻き込まれないように警告したいだけ。だから、一般的に憶測的なコンテンツが嫌いなんだ。適切な文脈に置かれることが少ないから、あまり目を引かないんだよね。

└

みんなが盛り上げるのは分かるけど、ここに貼られるTwitterリンクが「これはゲームチェンジャーだ!!! もう何も同じじゃない!!! インパクトに備えろ!!!」みたいなエネルギーで溢れてるのはちょっとウザいよね。例は素晴らしいけど、君が言ったようなプロフェッショナルじゃない評価は無視できない。

少数派かもしれないけど、私はずっとGeminiの方がChatGPTやClaude、Deepseekよりも優れてると感じてる。仕事を通じてプロモデルにはアクセスできるからね。多分、私がやってる仕事の種類、特にHTML/SCSSを使ったウェブ開発が影響してるのかも。Googleがインターネットをクローリングしてるから、データが豊富なんだと思う。モデルによって得意な仕事が違うと思うけど、私の経験ではGeminiはUI/UXのウェブ開発においてかなり優秀だよ。3.0がどんな感じになるのか、すごく楽しみ！

└

健康関連のことにLLMをよく使ってる（例えば、「過去12ヶ月の血液検査パネルが6つあります。医療情報のリストを見て、トレンドや洞察、相関関係を特定してください」みたいな）。私はプロジェクト機能が好きだから、デフォルトでChatGPTを使ってる（Geminiにはないと思うけど）。たまに同じプロンプトをGeminiでも試して比較してる。いくつかのメモ：1) Geminiは100%のケースで反応が早い（私のプロンプトのほとんどはChatGPTを考え込ませる）。ChatGPTは遅い。2) 考える時間が長くても、必ずしも質の良い回答に繋がるわけじゃない。むしろ、Geminiは反応時間が短いにもかかわらず、質の高い分析を提供してくれる。3) Gemini（とClaude）はChatGPTよりも検閲が厳しい。Gemini/Claudeは医療関連のプロンプトを拒否することが多いけど、ChatGPTは答えてくれる。

└

同意するよ。私はGemini 2.5 ProがClaudeやGPT-5よりも優れてると感じるケースがいくつかある：* 創作：Geminiはここでは圧倒的な勝者だと思う。個人的には、Gemini 2.5 Proは創作に使えるモデルの中で唯一の「なんとなく」使えるモデルだと言ってもいい。詩や短編小説の批評に使ってるけど、Geminiほどニュアンスを理解してくれるモデルは他にないよ。もちろん、どのモデルも詩を書くのはまだまだひどいけど。* 複雑な推論（例えば、学部や大学院レベルの数学）：ここではGeminiがほんの少しだけベストだと思う。Claude Opus 4.1とSonnet 4.5もかなり近いけど、Gemini 2.5の方が予測可能な正しい答えを書くと思う。私の偏見は代数系のことにあって、通常は可換代数、線形代数、カテゴリー理論、群論、代数幾何、代数トポロジーについて質問してる。一方で、Geminiはエージェント行動に関してはClaudeやGPT-5よりもかなり劣ってる。大きなコードベースを検索してオープンエンドの質問に答えたり、リファクタリングを書くのは苦手みたい。ツールコールの挙動がバグってて、Copilot/Cursorでは一貫して動作しないようだ。全体的には、Gemini 2.5 Proが最も賢いモデルだと思うけど、もちろんタスクによって異なるモデルを使う必要があるね。

└

検索して基盤を確立することに関しては、ClaudeとGeminiはChatGPTに比べてかなり劣ってると思う。Geminiは数回検索してから適当なことを言い出すけど、ChatGPTは何十回、あるいは何百回も検索して、前の検索結果に基づいて検索を行うからね。

└

Geminiは思考トークンがユーザーに表示されていた時は良かったんだけど、Googleがそれを思考の要約に置き換えた瞬間、あまり役に立たなくなった。以前は、思考がすごく整理されていて、最終的な答えよりもそっちをよく読んでた。

└

一貫してGeminiがChatGPT、Claude、Deepseekよりも優れていると感じている。私はChatGPTのProモードを利用可能になってからずっと使ってるし、ClaudeやGemini、Deepseekなども時々試してるけど、どれもProモードには全然及ばない。あれは本当に他のすべてよりも圧倒的に優れてるからね。だから、「XとChatGPTを比較してる」と聞くと、あなたはChatGPTの最高のものと比較してるの？それとも「オート」と比較して終わりにしてるの？人々がProモードに対してお気に入りのモデルをテストしない理由はわかるけど、実際に「すべてのモデルを試したけど、Xが一番だ！」って言う時には、もう少し具体的な情報を提供してくれると助かるな。（私も主にウェブ開発、UI、UXをやってるよ）

└

同意だね、そしてその大きなコンテキストウィンドウは素晴らしい。俺のワークフローはこんな感じだよ： - コードベース全体を文字列に変換 - Geminiにペースト - 質問するみんな「エージェンティック」なアプローチに夢中みたいだけど、俺はモデルに全コードベースを渡して会話する方が効果的で便利だと思ってる。コードを出力させたり、ファイルを修正したりするのも簡単だしね。

└

あなた一人じゃないよ。Geminiは、俺が取り組んでいる問題に対して実際に役立つことを一貫してやってくれた唯一のものなんだ（あまりボイラープレートコードがない問題ね）。他のモデルとは違って、時々複雑な推論の中で本当のエラーを見つけてくれるんだ。

└

ほんとにいいよね。数週間前、サードパーティのスクリプトが俺のReactボタンのクリックイベントを邪魔してたから、他のスクリプトの前にクリックをキャッチするためにmousedownイベントを追加することにしたんだ。夜遅くて疲れてたから、mousedownの後に数ミリ秒でクリックをシミュレートする簡単な方法を考えて、Geminiにその計画を伝えたんだ。クリックイベントの平均時間を教えてもらおうとしたら、なんと直球で拒否されて、代わりにmousedownとmouseupを組み合わせてイベントをトリガーするように言われたんだ（mousedownで状態を設定して、mouseupで状態をチェックしてイベントをトリガーする）。もちろん、これはずっと良い解決策だった。問題を完璧に理解していて、求めていたものをそのままくれるんじゃなくて、正しいやり方を教えてくれたことに驚いたよ。

└

私たちは$DAYJOBで最前線のモデルを徹底的にベンチマークしてるけど、Gemini 2.5は狭いユースケースを除けば、文句なしの王者なんだ。Googleが最高の事前トレーニングを持っていて、チューニングやアライメントでだけ劣っているという噂とも一致してる。Gemini 3が待ち遠しいよ。2.5は山の頂点にいるけど、まだ改善の余地がたくさんあるからね！編集：狭いユースケースは大体「真の推論」（GPT-5）やPythonスクリプト作成（Claudeたち）だね。

Hacker Newsで議論の続きを見る

ハクソク

A/Bテストを通じて発見された「Gemini 3.0」

概要

Gemini 3.0のA/Bテスト体験と評価

Gemini 3.0の出力特性とパフォーマンス

Gemini 2.5 ProとのA/Bテスト結果

まとめ

Hackerたちの意見