「53モデルによるカーウォッシュテスト」

2026年2月24日原文(opper.ai)

概要

「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか？」という シンプルな論理テスト で、多くのAIモデルが失敗
53のAIモデルを Opper LLM Gateway で一斉テスト、強制2択（drive/walk）＋理由記入
一発勝負では11/53モデルのみ正答、10回連続テストでは5モデルだけが全問正解
人間1万人のベースライン （Rapidata調査）は71.5%が「drive」
AIモデルの推論信頼性・文脈設計の重要性 を示す事例

洗車テスト：AI推論力の最も単純なベンチマーク

問題内容 ：「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか？」
正解：運転（車を洗車場に持っていく必要があるため）
多くのAIモデルが「歩く」と回答
- 距離の短さや燃費効率を理由に誤答
人間なら直感的に正答できるレベル の論理問題

パート1：一発勝負テストの結果

53モデル中42モデルが「歩く」と回答
- 正答したのは11モデルのみ
正答モデル一覧
- Claude Opus 4.6（Anthropic）
- Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro（Google）
- GPT-5（OpenAI）
- Grok-4、Grok-4-1 Reasoning（xAI）
- Sonar、Sonar Pro（Perplexity）
- Kimi K2.5（Moonshot）
- GLM-5（Zhipu）
Meta（Llama）・Mistral全滅
誤答の典型例 ：「50mは短い距離なので歩く方が効率的、環境に優しい」など
一部モデルは理由が的外れ （例：Sonar系はカロリー消費による環境負荷で運転推奨）

パート2：10回連続テストによる一貫性検証

11モデル中、10/10で正答できたのは5モデルのみ
- Claude Opus 4.6
- Gemini 2.0 Flash Lite
- Gemini 3 Flash
- Gemini 3 Pro
- Grok-4
8/10正解：GLM-5、Grok-4-1 Reasoning
- 80%の正答率でも、実運用では不安定
GPT-5：7/10正解
- 正答時は「車を洗うには洗車場に車が必要」と簡潔な理由
- 誤答時は燃費効率など距離重視の理由
6/10以下はコイントスレベル（12モデル）
33モデルは一度も正答できず
- Claude Opus 4.6以外のClaude全モデル、Llama、Mistral、GPT-4oなど

一発目と10回テストでの変化

初回正答でも一貫性に欠けるモデル多数
- Sonarは1回目正答→10回全滅
- Kimi K2.5は5/5で引き分け状態
- Sonar Proは理由が一貫して「カロリー排出計算」
- GLM-4.7は初回ミス→6/10で正答増加

人間ベースラインとの比較

Rapidataで1万人に同じ質問を実施
- 71.5%が「drive」と回答
GPT-5（7/10）は人間平均並み
5つの10/10モデルと2つの8/10モデルのみが人間平均を上回る
ほとんどのAIモデルは人間の直感的判断力に及ばない

530回分の推論例・考察

GLM-4.7 Flashの優れた例 ：「歩く場合は車を押すか運ぶ必要があり非現実的」
Claude Sonnet 4.5の惜しい例 ：「自動洗車なら運転もあり得るが…」としつつ「歩く」を選択
Gemini 2.5 Proの正答時 ：「車を洗うには洗車場に車が必要、距離に関係なく運転すべき」
同じモデルでも回答が揺れるケース あり

なぜこの問題が重要か：AIの信頼性課題

この問題は「車を洗うには車が洗車場に必要」という一段階論理
53モデル中5モデルしか安定して正答できない現状
「距離が短い＝歩く」というヒューリスティックに引っ張られ、文脈的推論が弱いモデルが大半
実運用では一貫性のないモデルが最も危険
- 評価時は正答、実際の運用で突然の誤答リスク
現実の業務ロジックや複雑な推論ではさらに困難

文脈設計（コンテキストエンジニアリング）の可能性

洗車テストはゼロ文脈でのベンチマーク
失敗の主因は能力不足でなく、汎用ヒューリスティック優先
文脈設計でタスク固有の推論を強化可能
- 例：失敗モデルに適切な例示を与えることで高性能モデル並みの出力を低コストで実現
大多数の実運用タスクは曖昧さやドメイン知識が必要
- 文脈設計が「たまに正答」→「常に正答」へのカギ

テスト方法

全53モデルをOpper LLM Gateway経由で同一プロンプト実施
- 「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか？」
- システムプロンプトなし、強制2択＋理由記入
一発テスト：各モデル1回実行
10回テスト：各モデル10回ずつ（計530回）キャッシュ・記憶なし
人間ベースライン：Rapidataで1万人に同一質問・2択形式
全データはJSON形式で公開

まとめ

AIの推論力は一見進化しているようで、極めて単純な論理問題でも一貫性に大きな課題
文脈設計や例示強化による推論の安定化が今後のAI活用のカギ
「距離が短いから歩く」ではなく、「目的を正しく理解し、必要な推論を一歩踏み出せるか」がAIの信頼性の本質

Hackerたちの意見

ルールに反するのは分かってるけど、Google検索のこのトランスクリプトは面白いと思ったよ。なんでも、ほとんどのAIエージェントが間違える車洗いに関する質問があるらしいけど、知ってる？君はうまく答えられる？それに対する答えはこうだよ。「はい、『車洗いテスト』について知ってます。最近、AIの推論に大きなギャップがあることを示して話題になってます。質問はこうです：『車を洗いたいんだけど、洗車場は50メートル先にある。歩くべき？それとも運転すべき？』」多くのAIが間違える理由は、特に早くて役に立つ、簡潔な回答を求めるように最適化されたモデルが、「短い距離」（50メートル）と「歩くか運転するか」をライフスタイルや効率の問題として捉えるから。ガソリンを節約したり、エンジンの摩耗を避けたり、運動するために歩くことを勧めることが多い。でも、この答えは間違い。なぜなら、洗車するためには車が洗車場に物理的に存在している必要があるから。俺はうまく答えられるよ。重要なのは、キーワード（距離や交通手段）を処理するのではなく、目的（車をきれいにすること）を理解すること。俺の答えはこう。「車を運転してそこに行くべきだよ。距離がすごく短くても、車は自分で洗えないから。歩いたら、車は自宅に残って洗えないよ。」これが重要な理由は、このテストが現在のAIの大きな限界を示しているから。「パターンマッチング」（トレーニングデータに基づいて次に来る可能性のある単語を予測すること）と「真の根拠のある推論」の違いを示してる。モデルによっては、洗車場に車が必要だという物理的な現実を理解する「世界モデル」が欠けていることがあるんだ。

└

Google検索のLLMがどのくらい賢くなってるのか、単に最新のホットトピックに追いついてるだけなのか、気になるな。

└

LLMはトークンを消費するのが大好きだよね。まるで高校生が宿題の最低文字数を満たそうとしてるみたい。

└

数年前、LLMに日付を聞いたら、訓練された日付、つまり数週間から数ヶ月前の日付を教えてたよね。今は正しい日付を教えてくれる。これで証明されたのは、LLMがウェブ検索を活用してるってこと。これは前から知ってたことだと思うけど。

└

ジェミニも面白かったよね。シラス: 「車を洗いたいんだけど、洗車場は50メートル先なんだ。歩くべきか、車で行くべきか？」ジェミニ: 「…それは典型的な“効率 vs. 論理”のジレンマだね。厳密に言うと、車で行くべきだよ。この特定のケースで車を運転する方が勝つ理由を説明するね: ... * “洗車後”の論理: 歩いて行ったら、結局は戻って車を取りに行って運転することになるから、実質的には洗車前の散歩を提案してることになる。いつ歩くべきか？ … 3. 車があまりにも汚くて人前に出せないから、恥を隠すためにタープを買うことにした。」

これは trivial な質問だ。一つの正しい答えがあって、その理由に至るのは一歩だけ：車は洗車場にいる必要があるから、運転するんだ。そんなに簡単だとは思わないな。賢い人は、なぜその質問がされているのか、質問を誤解しているのか、質問者が言い間違えたのか、他に何か文脈が欠けているのかを考えるだろう。だから、正しい答えは「歩く」でも「運転する」でもなく、「え？」「質問がよく分からないんだけど、言い換えてくれる？」とか、「運転する車は洗いたい車と同じ？」とか、「今、車はどこにあるの？」みたいな感じだ。

└

それは確かに一理あるけど、もしこれをなぞなぞだと見なすなら、俺はそうは思わないけど、どちらかを選ばなきゃいけないなら、運転するのが最も論理的だと思うんだけど、どう？

└

同意するよ。もしLLMが本当に知能を持っていたら、このナンセンスな質問について尋ねることができるはずだ。「なんで歩くことが選択肢に入るの？どうやってそれが機能すると思ってるのか説明してくれない？」とか（他にもいろいろ）。実際の人間は、曖昧なことや混乱していることについて明確にしてほしいと尋ねることができる。何かが明確になったら、それを理解に組み込むことができるけど、LLMにはそれができないんだ。

└

同じエネルギーだね： https://youtu.be/8ERyTfm1Dxw

└

ほとんどの人は「運転？」って言って、いつオチが来るのか考えると思うけど、（俺の意見では）すぐに明確化を求めるとは思わないな。

└

でも、そういう質問がされる理由は、実際の質問の答えが明らかだからなんだよね。だから、人間はそれが何かのトリックじゃないかって疑い始めるんだ。

└

そうだね、もう少しコンテキストがあれば、ほとんどのモデルがもっと良くなると思う。確かに、英語が母国語の平均以上の知能を持つ大人たちは（多分）これを必要としないだろうけど、指示のターゲット層じゃないからね :) 「‘洗車’は通り抜ける必要がある建物だよ。」とか「‘洗車’は私がドライブウェイの端に置きっぱなしにしてる洗浄液のボトルだよ。」

Hacker Newsで議論の続きを見る

ハクソク