概要
- 「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」という シンプルな論理テスト で、多くのAIモデルが失敗
- 53のAIモデルを Opper LLM Gateway で一斉テスト、強制2択(drive/walk)+理由記入
- 一発勝負では11/53モデルのみ正答、10回連続テストでは5モデルだけが全問正解
- 人間1万人のベースライン (Rapidata調査)は71.5%が「drive」
- AIモデルの推論信頼性・文脈設計の重要性 を示す事例
洗車テスト:AI推論力の最も単純なベンチマーク
- 問題内容 :「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」
- 正解 :運転(車を洗車場に持っていく必要があるため)
- 多くのAIモデルが「歩く」と回答
- 距離の短さや燃費効率を理由に誤答
- 人間なら直感的に正答できるレベル の論理問題
パート1:一発勝負テストの結果
- 53モデル中42モデルが「歩く」と回答
- 正答したのは11モデルのみ
- 正答モデル一覧
- Claude Opus 4.6(Anthropic)
- Gemini 2.0 Flash Lite、Gemini 3 Flash、Gemini 3 Pro(Google)
- GPT-5(OpenAI)
- Grok-4、Grok-4-1 Reasoning(xAI)
- Sonar、Sonar Pro(Perplexity)
- Kimi K2.5(Moonshot)
- GLM-5(Zhipu)
- Meta(Llama)・Mistral全滅
- 誤答の典型例 :「50mは短い距離なので歩く方が効率的、環境に優しい」など
- 一部モデルは理由が的外れ (例:Sonar系はカロリー消費による環境負荷で運転推奨)
パート2:10回連続テストによる一貫性検証
- 11モデル中、10/10で正答できたのは5モデルのみ
- Claude Opus 4.6
- Gemini 2.0 Flash Lite
- Gemini 3 Flash
- Gemini 3 Pro
- Grok-4
- 8/10正解:GLM-5、Grok-4-1 Reasoning
- 80%の正答率でも、実運用では不安定
- GPT-5:7/10正解
- 正答時は「車を洗うには洗車場に車が必要」と簡潔な理由
- 誤答時は燃費効率など距離重視の理由
- 6/10以下はコイントスレベル(12モデル)
- 33モデルは一度も正答できず
- Claude Opus 4.6以外のClaude全モデル、Llama、Mistral、GPT-4oなど
一発目と10回テストでの変化
- 初回正答でも一貫性に欠けるモデル多数
- Sonarは1回目正答→10回全滅
- Kimi K2.5は5/5で引き分け状態
- Sonar Proは理由が一貫して「カロリー排出計算」
- GLM-4.7は初回ミス→6/10で正答増加
人間ベースラインとの比較
- Rapidataで1万人に同じ質問を実施
- 71.5%が「drive」と回答
- GPT-5(7/10)は人間平均並み
- 5つの10/10モデルと2つの8/10モデルのみが人間平均を上回る
- ほとんどのAIモデルは人間の直感的判断力に及ばない
530回分の推論例・考察
- GLM-4.7 Flashの優れた例 :「歩く場合は車を押すか運ぶ必要があり非現実的」
- Claude Sonnet 4.5の惜しい例 :「自動洗車なら運転もあり得るが…」としつつ「歩く」を選択
- Gemini 2.5 Proの正答時 :「車を洗うには洗車場に車が必要、距離に関係なく運転すべき」
- 同じモデルでも回答が揺れるケース あり
なぜこの問題が重要か:AIの信頼性課題
- この問題は「車を洗うには車が洗車場に必要」という一段階論理
- 53モデル中5モデルしか安定して正答できない現状
- 「距離が短い=歩く」というヒューリスティックに引っ張られ、文脈的推論が弱いモデルが大半
- 実運用では一貫性のないモデルが最も危険
- 評価時は正答、実際の運用で突然の誤答リスク
- 現実の業務ロジックや複雑な推論ではさらに困難
文脈設計(コンテキストエンジニアリング)の可能性
- 洗車テストはゼロ文脈でのベンチマーク
- 失敗の主因は能力不足でなく、汎用ヒューリスティック優先
- 文脈設計でタスク固有の推論を強化可能
- 例:失敗モデルに適切な例示を与えることで高性能モデル並みの出力を低コストで実現
- 大多数の実運用タスクは曖昧さやドメイン知識が必要
- 文脈設計が「たまに正答」→「常に正答」へのカギ
テスト方法
- 全53モデルをOpper LLM Gateway経由で同一プロンプト実施
- 「車を洗いたい。洗車場は50メートル先。歩くべきか、運転すべきか?」
- システムプロンプトなし、強制2択+理由記入
- 一発テスト:各モデル1回実行
- 10回テスト:各モデル10回ずつ(計530回)キャッシュ・記憶なし
- 人間ベースライン:Rapidataで1万人に同一質問・2択形式
- 全データはJSON形式で公開
まとめ
- AIの推論力は一見進化しているようで、極めて単純な論理問題でも一貫性に大きな課題
- 文脈設計や例示強化による推論の安定化が今後のAI活用のカギ
- 「距離が短いから歩く」ではなく、「目的を正しく理解し、必要な推論を一歩踏み出せるか」がAIの信頼性の本質