世界を動かす技術を、日本語で。

A/Bテストを通じて発見された「Gemini 3.0」

概要

  • Gemini 3.0 の噂とA/Bテストによる実際の利用体験
  • Google AI Studio でのSVG生成タスクを通じたモデル評価
  • SVG画像 (Xbox 360コントローラー)の品質比較
  • モデルIDやレスポンス特性の観察
  • Gemini 2.5 Proとの A/Bテスト結果 の簡易まとめ

Gemini 3.0のA/Bテスト体験と評価

  • Gemini 3.0 はAI分野で最も注目されているリリースの一つ
  • Google AI Studio のA/Bテスト経由で一部ユーザーがアクセス可能との噂
  • SVG生成タスク (例:Xbox 360コントローラー)の品質がモデル評価の効率的な指標
  • @simonw による「pelican riding a bicycle」テストの有用性が示唆
  • 実際にA/Bテスト画面に遭遇し、 他モデルより高品質なSVG 画像を取得
  • 使用プロンプト例:
    • Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block. Like this: svg ...
  • Gemini 3.0 のモデルID:ecpt50a2y6mpgkcn(バージョン特定には不十分)
  • Gemini 2.5 Proを選択したため、おそらく Gemini 3.0 Pro との比較と推測
  • Gemini 3.0 FlashとGemini 2.5 Proの比較は非効率と考察

Gemini 3.0の出力特性とパフォーマンス

  • TTFT(初回応答時間) が約24秒長い傾向
  • 出力長 が約40%増加(推論トークン含むと推測)
  • GPT-5 Pro のような極端な計算リソース消費は見られず

Gemini 2.5 ProとのA/Bテスト結果

  • Gemini 3.0 のSVG生成能力が明らかに向上
  • 出力の 質と詳細さ でGemini 2.5 Proを上回る印象
  • A/Bテスト による直接比較で、ユーザー体感の違いが明確

まとめ

  • Gemini 3.0 はSVG生成や推論能力で着実な進化
  • Google AI Studio を活用したA/Bテストが新モデル評価の有効手段
  • 出力品質や応答特性の違いから、 Gemini 3.0 の実力が実証

Hackerたちの意見

もう約1ヶ月続いてるけど、いつもの憶測の中でいろんなチェックポイントがあるね。今のところ、公式発表を待ってから判断した方がいいと思う。リリースプランがどうなるのか、チェックポイントがPro、Flash、Flash Liteの代わりになるのか、新しいモデルのカテゴリーなのか、全くリリースされないのか、などはわからないからね。もっと重要なのは、AIStudioのA/Bテストのやり方によって、得られる出力は単一のプロンプトに対するものだけだってこと。個人的には、スピードやレイテンシ、プロンプトの遵守について基本的な理解を得る以外は、単一のプロンプトからの出力は日常のパフォーマンスを測るには良い指標じゃないと思ってる。もちろん、マルチファイルの取り込みやツールコールの扱いについては何も教えてくれないし、ハイプはハイプだよね。単一プロンプトのA/Bテストの出力だけでパフォーマンスを評価する人がいるのは、モデルのパフォーマンスを評価する際のプロ意識の欠如を示してると思う。Gemini 3.0モデルが競争力を持つ可能性があるとは言ってないけど、過剰な期待や失望に巻き込まれないように警告したいだけ。だから、一般的に憶測的なコンテンツが嫌いなんだ。適切な文脈に置かれることが少ないから、あまり目を引かないんだよね。

みんなが盛り上げるのは分かるけど、ここに貼られるTwitterリンクが「これはゲームチェンジャーだ!!! もう何も同じじゃない!!! インパクトに備えろ!!!」みたいなエネルギーで溢れてるのはちょっとウザいよね。例は素晴らしいけど、君が言ったようなプロフェッショナルじゃない評価は無視できない。

少数派かもしれないけど、私はずっとGeminiの方がChatGPTやClaude、Deepseekよりも優れてると感じてる。仕事を通じてプロモデルにはアクセスできるからね。多分、私がやってる仕事の種類、特にHTML/SCSSを使ったウェブ開発が影響してるのかも。Googleがインターネットをクローリングしてるから、データが豊富なんだと思う。モデルによって得意な仕事が違うと思うけど、私の経験ではGeminiはUI/UXのウェブ開発においてかなり優秀だよ。3.0がどんな感じになるのか、すごく楽しみ!

健康関連のことにLLMをよく使ってる(例えば、「過去12ヶ月の血液検査パネルが6つあります。医療情報のリストを見て、トレンドや洞察、相関関係を特定してください」みたいな)。私はプロジェクト機能が好きだから、デフォルトでChatGPTを使ってる(Geminiにはないと思うけど)。たまに同じプロンプトをGeminiでも試して比較してる。いくつかのメモ:1) Geminiは100%のケースで反応が早い(私のプロンプトのほとんどはChatGPTを考え込ませる)。ChatGPTは遅い。2) 考える時間が長くても、必ずしも質の良い回答に繋がるわけじゃない。むしろ、Geminiは反応時間が短いにもかかわらず、質の高い分析を提供してくれる。3) Gemini(とClaude)はChatGPTよりも検閲が厳しい。Gemini/Claudeは医療関連のプロンプトを拒否することが多いけど、ChatGPTは答えてくれる。

同意するよ。私はGemini 2.5 ProがClaudeやGPT-5よりも優れてると感じるケースがいくつかある:* 創作:Geminiはここでは圧倒的な勝者だと思う。個人的には、Gemini 2.5 Proは創作に使えるモデルの中で唯一の「なんとなく」使えるモデルだと言ってもいい。詩や短編小説の批評に使ってるけど、Geminiほどニュアンスを理解してくれるモデルは他にないよ。もちろん、どのモデルも詩を書くのはまだまだひどいけど。* 複雑な推論(例えば、学部や大学院レベルの数学):ここではGeminiがほんの少しだけベストだと思う。Claude Opus 4.1とSonnet 4.5もかなり近いけど、Gemini 2.5の方が予測可能な正しい答えを書くと思う。私の偏見は代数系のことにあって、通常は可換代数、線形代数、カテゴリー理論、群論、代数幾何、代数トポロジーについて質問してる。一方で、Geminiはエージェント行動に関してはClaudeやGPT-5よりもかなり劣ってる。大きなコードベースを検索してオープンエンドの質問に答えたり、リファクタリングを書くのは苦手みたい。ツールコールの挙動がバグってて、Copilot/Cursorでは一貫して動作しないようだ。全体的には、Gemini 2.5 Proが最も賢いモデルだと思うけど、もちろんタスクによって異なるモデルを使う必要があるね。

検索して基盤を確立することに関しては、ClaudeとGeminiはChatGPTに比べてかなり劣ってると思う。Geminiは数回検索してから適当なことを言い出すけど、ChatGPTは何十回、あるいは何百回も検索して、前の検索結果に基づいて検索を行うからね。

Geminiは思考トークンがユーザーに表示されていた時は良かったんだけど、Googleがそれを思考の要約に置き換えた瞬間、あまり役に立たなくなった。以前は、思考がすごく整理されていて、最終的な答えよりもそっちをよく読んでた。

一貫してGeminiがChatGPT、Claude、Deepseekよりも優れていると感じている。私はChatGPTのProモードを利用可能になってからずっと使ってるし、ClaudeやGemini、Deepseekなども時々試してるけど、どれもProモードには全然及ばない。あれは本当に他のすべてよりも圧倒的に優れてるからね。だから、「XとChatGPTを比較してる」と聞くと、あなたはChatGPTの最高のものと比較してるの?それとも「オート」と比較して終わりにしてるの?人々がProモードに対してお気に入りのモデルをテストしない理由はわかるけど、実際に「すべてのモデルを試したけど、Xが一番だ!」って言う時には、もう少し具体的な情報を提供してくれると助かるな。(私も主にウェブ開発、UI、UXをやってるよ)

同意だね、そしてその大きなコンテキストウィンドウは素晴らしい。俺のワークフローはこんな感じだよ: - コードベース全体を文字列に変換 - Geminiにペースト - 質問する みんな「エージェンティック」なアプローチに夢中みたいだけど、俺はモデルに全コードベースを渡して会話する方が効果的で便利だと思ってる。コードを出力させたり、ファイルを修正したりするのも簡単だしね。

あなた一人じゃないよ。Geminiは、俺が取り組んでいる問題に対して実際に役立つことを一貫してやってくれた唯一のものなんだ(あまりボイラープレートコードがない問題ね)。他のモデルとは違って、時々複雑な推論の中で本当のエラーを見つけてくれるんだ。

ほんとにいいよね。数週間前、サードパーティのスクリプトが俺のReactボタンのクリックイベントを邪魔してたから、他のスクリプトの前にクリックをキャッチするためにmousedownイベントを追加することにしたんだ。夜遅くて疲れてたから、mousedownの後に数ミリ秒でクリックをシミュレートする簡単な方法を考えて、Geminiにその計画を伝えたんだ。クリックイベントの平均時間を教えてもらおうとしたら、なんと直球で拒否されて、代わりにmousedownとmouseupを組み合わせてイベントをトリガーするように言われたんだ(mousedownで状態を設定して、mouseupで状態をチェックしてイベントをトリガーする)。もちろん、これはずっと良い解決策だった。問題を完璧に理解していて、求めていたものをそのままくれるんじゃなくて、正しいやり方を教えてくれたことに驚いたよ。

私たちは$DAYJOBで最前線のモデルを徹底的にベンチマークしてるけど、Gemini 2.5は狭いユースケースを除けば、文句なしの王者なんだ。Googleが最高の事前トレーニングを持っていて、チューニングやアライメントでだけ劣っているという噂とも一致してる。Gemini 3が待ち遠しいよ。2.5は山の頂点にいるけど、まだ改善の余地がたくさんあるからね!編集:狭いユースケースは大体「真の推論」(GPT-5)やPythonスクリプト作成(Claudeたち)だね。

すごく良いと思ってるけど、2.5は大体5万トークンくらいでコンテキストが崩壊するみたい。俺がRoo Codeを使ってた時の発見なんだけど、今はClaude Codeに切り替えたから、コンテキストやスコープの管理にかかる時間がほとんどなくなったよ。

https://x.com/chetaslua はGemini 3を使っていろいろ実験して、その結果を投稿してる(さまざまなウェブデスクトップや、実際にプレイ可能なバンパイアサバイバーのクローン、ボクセル3Dモデル、他のゲームクローン、SVGなど)。一発で見た目もすごく良いよ。

これ面白かったよ: https://codepen.io/ChetasLua/pen/yyezLjN 偽のWindowsでターミナルからPythonを開くと、ちょっと面白い4次元の壁を破る感じになる。例: 1. "Python"のprintキーワードを使って何かを印刷しようとすると、ブラウザで印刷ダイアログが開く。 2. "Python"のopenキーワードを使ってファイルを開こうとすると、そのファイルにアクセスしようとする新しいブラウザタブが開く。つまり、印刷とオープンの呼び出しをブラウザに転送してるんだ。

ループの問題が解決されるといいな。ほんとにひどいよ。CLIにはループ検出機能があって、使い始めて1分でそれに引っかかっちゃった。Geminiアプリの2.5 Proも、何度も明確に言ったのに、同じことを繰り返しちゃって、使い物にならないくらいだよ。

すごい例もあるよね: https://news.ycombinator.com/item?id=45578346

Gemini 3.0は、コーディングパフォーマンスの向上が期待されているため、今最も注目されているAIのリリースの一つだ。Googleで働いている友達から聞いた話では、みんながっかりすることになると思う。編集:どうやら彼らは実際にはGemini 3にアクセスできていないみたいで、それが不満の理由かもしれない。

これは誰も驚かないだろうね。LLMは限界に達しているから、もっと安くGPUを作る方法を見つけないと。

Gemini 3.0はGoogleの中では広く使えるわけじゃないんだ。2.5 Proと2.5 Flashの「Gemini for Google」って調整されたバージョンはあるけど、3.0モデルはまだ広く利用できてない。ソース:私はGoogleで働いてるけど、AIチームじゃなくて決済の方ね。意見は私のもので、Googleの公式なものじゃないよ。

このワクワクを台無しにしたくないけど、私たちGoogleではVibecodingで使えるGemini 3は手に入らないんだ。

ちょっと変な観察なんだけど、Gemini 2.5 Proは多くのユースケースにおいて、全体的に見て一番良いモデルかもしれない。最初のチャットから始まるときにね。つまり、必要なコンテキストが全部揃っていて、一つの出力を出すと、すごく良いんだ。でも、チャットが長くなると、すぐに悪くなっちゃう。これが変なのは、他のモデルよりもずっと長いコンテキストウィンドウを持ってるのにね。私が見つけた良い使い方は、プロジェクト全体の巨大なコンテキスト(大体20万トークンくらい)をチャットウィンドウに入れて、一つのしっかりした質問をしてから、チャットを終了することだね。

チャットが長くなると、すぐに悪くなっちゃう。これは私が使った全てのLLMに共通してることなんだ。みんなそれが苦手で、私はもう二つのメッセージを超えることをやめたよ。最初の試みでうまくいかなかったら、追加するメッセージが増えるほど、正しくなる可能性がどんどん低くなるからね。常に新しく始めて、最初のプロンプトを繰り返す方がいいよ。

これはすごく良いペリカンだね。私もGemini 3を試すのが楽しみだよ。

それがいいの?俺には完全にクソに見えるけど。

ベンチマークが(やっと)壊れた!

今、TwitterにはもっとたくさんのGemini 3の例が出てるよ。それを見た後、Googleの株を買っちゃった。出力が驚くべきなのは、実際に新しいクリエイティブなデザインを生み出してる感じがすること。単なるテンプレートの再利用じゃないんだ。コードで一貫して美しい出力を出すのはすごく難しいけど、どうやらそれを達成してるみたい。それに、Googleは自社のハードウェアと完全に垂直統合されてる唯一のコアモデルスペースにいるから、AIレースでの成功にすごく期待してるよ。

プレイしやすいバンパイアサバイバーのクローンだね。