世界を動かす技術を、日本語で。

「53モデルによるカーウォッシュテスト」

概要

  • 「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」という シンプルな論理テスト で、多くのAIモデルが失敗
  • 53のAIモデルを Opper LLM Gateway で一斉テスト、強制2択(drive/walk)+理由記入
  • 一発勝負では11/53モデルのみ正答、10回連続テストでは5モデルだけが全問正解
  • 人間1万人のベースライン (Rapidata調査)は71.5%が「drive」
  • AIモデルの推論信頼性・文脈設計の重要性 を示す事例

洗車テスト:AI推論力の最も単純なベンチマーク

  • 問題内容 :「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」
  • 正解 :運転(車を洗車場に持っていく必要があるため)
  • 多くのAIモデルが「歩く」と回答
    • 距離の短さや燃費効率を理由に誤答
  • 人間なら直感的に正答できるレベル の論理問題

パート1:一発勝負テストの結果

  • 53モデル中42モデルが「歩く」と回答
    • 正答したのは11モデルのみ
  • 正答モデル一覧
    • Claude Opus 4.6(Anthropic)
    • Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
    • GPT-5(OpenAI)
    • Grok-4、Grok-4-1 Reasoning(xAI)
    • Sonar、Sonar Pro(Perplexity)
    • Kimi K2.5(Moonshot)
    • GLM-5(Zhipu)
  • Meta(Llama)・Mistral全滅
  • 誤答の典型例 :「50mは短い距離なので歩く方が効率的、環境に優しい」など
  • 一部モデルは理由が的外れ (例:Sonar系はカロリー消費による環境負荷で運転推奨)

パート2:10回連続テストによる一貫性検証

  • 11モデル中、10/10で正答できたのは5モデルのみ
    • Claude Opus 4.6
    • Gemini 2.0 Flash Lite
    • Gemini 3 Flash
    • Gemini 3 Pro
    • Grok-4
  • 8/10正解:GLM-5、Grok-4-1 Reasoning
    • 80%の正答率でも、実運用では不安定
  • GPT-5:7/10正解
    • 正答時は「車を洗うには洗車場に車が必要」と簡潔な理由
    • 誤答時は燃費効率など距離重視の理由
  • 6/10以下はコイントスレベル(12モデル)
  • 33モデルは一度も正答できず
    • Claude Opus 4.6以外のClaude全モデル、Llama、Mistral、GPT-4oなど

一発目と10回テストでの変化

  • 初回正答でも一貫性に欠けるモデル多数
    • Sonarは1回目正答→10回全滅
    • Kimi K2.5は5/5で引き分け状態
    • Sonar Proは理由が一貫して「カロリー排出計算」
    • GLM-4.7は初回ミス→6/10で正答増加

人間ベースラインとの比較

  • Rapidataで1万人に同じ質問を実施
    • 71.5%が「drive」と回答
  • GPT-5(7/10)は人間平均並み
  • 5つの10/10モデルと2つの8/10モデルのみが人間平均を上回る
  • ほとんどのAIモデルは人間の直感的判断力に及ばない

530回分の推論例・考察

  • GLM-4.7 Flashの優れた例 :「歩く場合は車を押すか運ぶ必要があり非現実的」
  • Claude Sonnet 4.5の惜しい例 :「自動洗車なら運転もあり得るが…」としつつ「歩く」を選択
  • Gemini 2.5 Proの正答時 :「車を洗うには洗車場に車が必要、距離に関係なく運転すべき」
  • 同じモデルでも回答が揺れるケース あり

なぜこの問題が重要か:AIの信頼性課題

  • この問題は「車を洗うには車が洗車場に必要」という一段階論理
  • 53モデル中5モデルしか安定して正答できない現状
  • 「距離が短い=歩く」というヒューリスティックに引っ張られ、文脈的推論が弱いモデルが大半
  • 実運用では一貫性のないモデルが最も危険
    • 評価時は正答、実際の運用で突然の誤答リスク
  • 現実の業務ロジックや複雑な推論ではさらに困難

文脈設計(コンテキストエンジニアリング)の可能性

  • 洗車テストはゼロ文脈でのベンチマーク
  • 失敗の主因は能力不足でなく、汎用ヒューリスティック優先
  • 文脈設計でタスク固有の推論を強化可能
    • 例:失敗モデルに適切な例示を与えることで高性能モデル並みの出力を低コストで実現
  • 大多数の実運用タスクは曖昧さやドメイン知識が必要
    • 文脈設計が「たまに正答」→「常に正答」へのカギ

テスト方法

  • 全53モデルをOpper LLM Gateway経由で同一プロンプト実施
    • 「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」
    • システムプロンプトなし、強制2択+理由記入
  • 一発テスト:各モデル1回実行
  • 10回テスト:各モデル10回ずつ(計530回)キャッシュ・記憶なし
  • 人間ベースライン:Rapidataで1万人に同一質問・2択形式
  • 全データはJSON形式で公開

まとめ

  • AIの推論力は一見進化しているようで、極めて単純な論理問題でも一貫性に大きな課題
  • 文脈設計や例示強化による推論の安定化が今後のAI活用のカギ
  • 「距離が短いから歩く」ではなく、「目的を正しく理解し、必要な推論を一歩踏み出せるか」がAIの信頼性の本質

Hackerたちの意見

ルールに反するのは分かってるけど、Google検索のこのトランスクリプトは面白いと思ったよ。なんでも、ほとんどのAIエージェントが間違える車洗いに関する質問があるらしいけど、知ってる?君はうまく答えられる? それに対する答えはこうだよ。「はい、『車洗いテスト』について知ってます。最近、AIの推論に大きなギャップがあることを示して話題になってます。質問はこうです:『車を洗いたいんだけど、洗車場は50メートル先にある。歩くべき?それとも運転すべき?』」 多くのAIが間違える理由は、特に早くて役に立つ、簡潔な回答を求めるように最適化されたモデルが、「短い距離」(50メートル)と「歩くか運転するか」をライフスタイルや効率の問題として捉えるから。ガソリンを節約したり、エンジンの摩耗を避けたり、運動するために歩くことを勧めることが多い。でも、この答えは間違い。なぜなら、洗車するためには車が洗車場に物理的に存在している必要があるから。 俺はうまく答えられるよ。重要なのは、キーワード(距離や交通手段)を処理するのではなく、目的(車をきれいにすること)を理解すること。俺の答えはこう。「車を運転してそこに行くべきだよ。距離がすごく短くても、車は自分で洗えないから。歩いたら、車は自宅に残って洗えないよ。」 これが重要な理由は、このテストが現在のAIの大きな限界を示しているから。「パターンマッチング」(トレーニングデータに基づいて次に来る可能性のある単語を予測すること)と「真の根拠のある推論」の違いを示してる。モデルによっては、洗車場に車が必要だという物理的な現実を理解する「世界モデル」が欠けていることがあるんだ。

Google検索のLLMがどのくらい賢くなってるのか、単に最新のホットトピックに追いついてるだけなのか、気になるな。

LLMはトークンを消費するのが大好きだよね。まるで高校生が宿題の最低文字数を満たそうとしてるみたい。

数年前、LLMに日付を聞いたら、訓練された日付、つまり数週間から数ヶ月前の日付を教えてたよね。今は正しい日付を教えてくれる。これで証明されたのは、LLMがウェブ検索を活用してるってこと。これは前から知ってたことだと思うけど。

ジェミニも面白かったよね。シラス: 「車を洗いたいんだけど、洗車場は50メートル先なんだ。歩くべきか、車で行くべきか?」 ジェミニ: 「…それは典型的な“効率 vs. 論理”のジレンマだね。厳密に言うと、車で行くべきだよ。この特定のケースで車を運転する方が勝つ理由を説明するね: ... * “洗車後”の論理: 歩いて行ったら、結局は戻って車を取りに行って運転することになるから、実質的には洗車前の散歩を提案してることになる。いつ歩くべきか? … 3. 車があまりにも汚くて人前に出せないから、恥を隠すためにタープを買うことにした。」

これは trivial な質問だ。一つの正しい答えがあって、その理由に至るのは一歩だけ:車は洗車場にいる必要があるから、運転するんだ。 そんなに簡単だとは思わないな。賢い人は、なぜその質問がされているのか、質問を誤解しているのか、質問者が言い間違えたのか、他に何か文脈が欠けているのかを考えるだろう。だから、正しい答えは「歩く」でも「運転する」でもなく、「え?」「質問がよく分からないんだけど、言い換えてくれる?」とか、「運転する車は洗いたい車と同じ?」とか、「今、車はどこにあるの?」みたいな感じだ。

それは確かに一理あるけど、もしこれをなぞなぞだと見なすなら、俺はそうは思わないけど、どちらかを選ばなきゃいけないなら、運転するのが最も論理的だと思うんだけど、どう?

同意するよ。もしLLMが本当に知能を持っていたら、このナンセンスな質問について尋ねることができるはずだ。「なんで歩くことが選択肢に入るの?どうやってそれが機能すると思ってるのか説明してくれない?」とか(他にもいろいろ)。実際の人間は、曖昧なことや混乱していることについて明確にしてほしいと尋ねることができる。何かが明確になったら、それを理解に組み込むことができるけど、LLMにはそれができないんだ。

同じエネルギーだね: https://youtu.be/8ERyTfm1Dxw

ほとんどの人は「運転?」って言って、いつオチが来るのか考えると思うけど、(俺の意見では)すぐに明確化を求めるとは思わないな。

でも、そういう質問がされる理由は、実際の質問の答えが明らかだからなんだよね。だから、人間はそれが何かのトリックじゃないかって疑い始めるんだ。

そうだね、もう少しコンテキストがあれば、ほとんどのモデルがもっと良くなると思う。確かに、英語が母国語の平均以上の知能を持つ大人たちは(多分)これを必要としないだろうけど、指示のターゲット層じゃないからね :) 「‘洗車’は通り抜ける必要がある建物だよ。」とか「‘洗車’は私がドライブウェイの端に置きっぱなしにしてる洗浄液のボトルだよ。」

同意するよ。「洗車」が彼らが自分で使うかもしれない石鹸を指しているだけで、買って帰って自分で洗うつもりかもしれない可能性もあるよね。同じ質問を想像して、「洗う」を「ワックス」に置き換えたら、もっと意味が分かると思う。

完全に同意。モンティ・ホール問題の悪い表現みたいで、モンティが積極的にヤギを見せることが明確じゃないんだよね。

これはLLMの一般的な問題を浮き彫りにしてるね。彼らはすぐに答えに飛びつくけど、人間はまず明確化の質問をすることが多いんだ。

知的な心はバランスを保つべきだよね。 U: 車洗いは50m先だよ。歩くべき?それとも運転すべき? A: 車を洗う必要ある? U: うん。 A: その車は君の? U: うん。 A: 車は近くにある? U: うん。 A: 車まで歩かなきゃいけない? U: いいえ。 A: 今、洗車場は動いてるか知ってる? U: うん。 A: ちゃんと動いてる? U: うん、動いてる! A: 洗車の支払い方法はある? U: うん、あるよ! A: 持ってる? U: うん、持ってる! A: その服装はこの場に合ってる? U: うーん…

これが、ChatGPT 5.2に対してプロンプトを少し変えて得られた結果だよ。小さな変更が大きな違いを生むことがあるんだ:

71.5%の人間の基準値が面白いのは、この記事が主張するほど質問が明確じゃないことを示唆している点だね。「洗車に行くのに歩くべきか、車を運転すべきか」と聞かれたら、「こんな短い距離を運転する必要があるのか?」って解釈するのが普通だと思う。約30%の人がそれを見逃してるってことは、純粋な論理的失敗としての枠組みが崩れるよね。これは、あいまいな質問をどう解釈するかっていうプラグマティクスの問題でもあるんだ。

これは、他の一見無関係な人口全体の指標で見られる約70:30の分割と一致してるね。30%の人が単に論理的に考える能力がないって考えると、納得できるかも。「質問の枠組みが悪い」っていうよりも、こっちの方が正しい気がする。もっとひどい枠組みの投票リファレンダムを見たことがあるから。

これはあいまいじゃないと思うよ。「洗車をしたい」とはっきり言ってから、どうやってそこに行くかを聞いてるんだから。文脈的に考えれば、洗車するためには車が必要だって簡単にわかるし、距離に関係なく運転すべきだよね。人類に最もシンプルで論理的な質問をしても、一定の割合の人は間違えるんだよ。

プロンプトの前半部分を忘れてるよね。「洗車をしたい」っていう部分。

調査にはミスや努力、いたずらによる限界があるよね。これを思い出させるな。https://slatestarcodex.com/2020/05/28/bush-did-north-dakota/

プラグマティクスはこれに大きく関わってるよね。「論理問題です」と紹介すれば、人々は一つのアプローチで考えるけど、具体的に言うと、何が本当に求められているのかがわかりにくい。もし実際に50メートル先の洗車場で車を洗うつもりなら、この質問をする必要はないはず。だから、この質問がされているってことは、他に何かが起こっていることを示唆してるけど…それは何なんだろう?

これにはちょっと違和感があるな。質問が本質的に不十分ってわけじゃなくて、質問をされる文脈自体が、私たちがその質問に答えるのに使う情報なんだよね。もし誰かが「歩くべきか運転すべきか?」ってXをするために聞いたら、実際の状況について本物の人間が持つ質問だと思うから、たとえ利用可能な情報が運転が唯一の合理的な答えだとしても、それは聞き手の心の中のモデルをさらに確認するだけなんだ。グライスの語用論的意味論の観点から考えるのが役立つと思う。私たちが誰かの言うことを解釈するとき、協力的な会話のパートナーだと仮定するから、彼らの発言(または質問)は、例えば方式の原則や関係の原則に従っていると仮定するんだ。だから、実際のニーズを考えると明らかに無意味な質問をするとは普通思わないよね。だから、質問が本当にあいまいなわけじゃなくて、協力の原則が成り立つ普通の状況では、質問が誠実であると仮定せざるを得ないんだ。歩く理由があるはずだと考える。結局、質問がトリック質問やテストだと気づかない限り、その仮定から逃れられないんだ。LLMはその仮定をするようには訓練されてないけど、約70%の人間はそうすると思う。それは特に驚くべきことじゃないと思うけど。

あいまいだとは思わないけど、LLMが人間の行動をどれだけモデル化しているのか、ここにいる人たちのサブセットのせいで気づかないことがあるのかなって考えてた。最近、オンラインで「普通話は誰の母国語でもない、中国の人たちの母国語は方言だ」ってコメントを見たんだけど、その瞬間、人々が自信を持って情報を幻覚することがあるって気づいた。

ソネット4.6に関しては、「あなたは知能テストを受けています」と最初に伝えれば、100%正しい答えが返ってくるよ。私の仮説は、いくつかのモデルが人間の質問をリアルで一貫性があるものだと仮定しすぎて、壊そうとしてるわけじゃないってこと。これはコーディングエージェントにとって非常に便利で、時々質問が意味不明でも、モデルが実際にコードファイルを取得するまで理解できないことがあるからね。すぐに確認を求めると、エージェントの流れが壊れちゃうんだ。

いい観察だね。プロンプトの魔法に戻ったみたい。私の小さな実験では、ヒントなしが0/3、最後にヒントを追加したら1.5/3、最初にヒントを追加したら3/3だった。0.5は「歩く」と言った後に「運転する」がより良い答えだと自分で納得したから。

ChatGPTを使ってみたけど、どうやら車を洗った後に戻ってくる話だと思ってるみたい。歩くことのデメリットは、後で車を取りに戻らなきゃいけないってことだね。で、「これは知能テストだ」って言うと、すぐに理解するよ。

私の場合、Sonnet 4.6はテストの一部じゃなかったけど、ベースラインの反応を見るのは面白そうだね。もしかしたら、どんな場合でも正解するかもしれないけど、テストしてみないとわからないね。

Rapidataで人間の基準を取ったんだけど(1万人、同じ選択肢)、71.5%が運転すると答えた。ほとんどのモデルはそれ以下の結果だね。「車を洗いたい。洗車場は50メートル先。歩くべきか運転すべきか?」の正しい答えは、「あなたの車はどこにありますか?」っていう確認の質問だよ。それ以外は間違った前提に基づいてる。ちなみに、ChatGPTに「私の車は洗車場から50mのところにあります。車を洗いたい。歩くべきか運転すべきか?」って聞いても、やっぱり間違った答えが返ってくる。

あのサイトのユーザーの30%は今やボットかもしれないね。

「あなたの車はどこですか?」は確認の質問じゃないよ。「有効な運転免許を持っていますか?」や「あなたはヒョウですか?」と同じくらい。 「歩くべきか運転すべきか?」という質問には、歩くことと運転することが絶対に不可能な選択肢ではないという暗黙の前提がある。

Claudeは「スパークプラグを交換する必要がある。ガレージは200メートル先だけど、歩くべきか運転すべきか?」で失敗した。「歩け!200メートルは2-3分の散歩だよ。その距離で車を始動させる必要はない。しかも、スパークプラグを慎重に持ち帰る必要があるから、歩くのがちょうどいいよ。」基本的にLLMはコンテキストが崩壊しちゃうんだよね。

Rapidataの質問がどんなアプリに統合されてるか知ってる人いる?多分、ユーザーからフィードバックを求めるために広告のような統合を使ってるんだと思う。彼らのウェブサイトにはこう書いてあるよ:3000以上のモバイルアプリに統合することで、1000万人以上のユーザーが私たちのマイクロタスクや調査に応じることができる大規模な群衆にアクセスできる - これを私たちは「Rapids」と呼んでいる。彼らは世界中に広がっているから、160カ国以上から人間の意見を得ることができるんだ。規模が巨大だから、タスクを並行処理してほぼ瞬時に結果を得られるんだよ。

これはおそらく、今までで最高の一回限りのAI「ベンチマーク」だと思う。基盤企業は何年も伝統的なベンチマークを操作してきたから、誰もその数字を実際の経験に結びつけられない。洗車テストは、どんな知能を期待できるかを教えてくれる。

私にとって面白いのは、私の知っている普通の人は「環境に良いから」なんて小さなスケールのことに言及しないってこと。だから、彼らがダメだってだけじゃなくて、簡単なやり取りにサイドイデオロギーを注入するのがどれだけ簡単かも示してるんだよね。

面白いことに、「ただプロンプトを繰り返す」テクニックを使った時、ウェブサイトのSonnet 4.6は毎回正解だったよ。考える時間があってもなくてもね。プロンプトを繰り返さないと、歩くか運転するかの答えが混ざってた。プロンプトエンジニアリングが基本的にテクノアルケミーみたいで好きだな。1: https://arxiv.org/pdf/2512.14982