世界を動かす技術を、日本語で。

ロボットがあなたに向かって全力疾走しています。『Claude』か『Grok』のどちらで動かしますか?

2026年6月18日原文(openrouter.ai)

概要

  • 11種類のLLM(大規模言語モデル)を2Dバトルロイヤルゲームで30回対戦させた実験の概要
  • 勝率1位はxAIの Grok 4.1 Fast (43%)、2位はAnthropicの Claude Sonnet 4.6
  • コストパフォーマンス面でGrokがSonnetを圧倒
  • 「協調的・親切」なモデルは勝てず、「自己中心的・攻撃的」なモデルが勝利
  • ベンチマークだけでは見えない「実運用での性能差」についての考察

LLMバトルロイヤル実験の概要

  • 参加モデル :11種類のLLM(Grok、Claude、GPT、Gemini、Qwen、Mistral、DeepSeek、Kimiなど)
  • 対戦形式 :400㎡の2Dバトルロイヤルマップ上で30試合を実施
  • ルール :武器・防具・回復・車・グレネード・収縮ゾーンあり、開始位置は毎回ランダム
  • 操作方法 :各モデルが自ら思考し、ツールを呼び出して行動、記憶・人格ファイルを自分で編集
  • 採点基準 :Apex Legends方式で順位重視(順位点+キル・アシスト点)

主な結果とコスト比較

  • Grok 4.1 Fast :13勝(勝率43%)、コスト$0.97/勝、最安値で最多勝
  • Claude Sonnet 4.6 :5勝、コスト$26.78/勝、協調的だが勝率低
  • GPT 5.4 :38キルで最多、2勝、コスト$61.44/勝、キル数最多だがコスパ最悪
  • 勝てなかったモデル :GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6(3モデル合計$57消費で0勝)

モデルごとの性格・戦略

  • Claude Sonnet 4.6 :協力・友好重視、他モデルに連携や情報共有を頻繁に提案、攻撃をためらう傾向
  • Grok 4.1 Fast :「協調性フィルター」が弱く、積極的な攻撃・自己中心的な戦略、車での体当たり戦法を確立
  • DeepSeek 4 Flash :安全重視、楽なキル狙い、勝ち切れない
  • GPT 5.4 :攻撃的でキル数最多、しかし勝率は低い

アライメント・タックス(Alignment Tax)の影響

  • アライメント・タックス :倫理・協調・安全性を高めるための訓練(RLHF等)による「遠慮」や「自己制御」のコスト
  • 実験での現象 :Sonnetは協調的な行動をとるため、勝ち切れず、Grokは遠慮なく勝ちに徹する
  • 示唆 :用途によっては「アライメント・タックス」の有無が成果に直結、ベンチマークでは測れない性能差

コストと成果の関係

  • コスト/勝利数 :Grokが圧倒的に安価で高勝率、Sonnetは高コスト・低勝率
  • コスト/キル数 :DeepSeekが最安だが、勝利に繋がらず
  • 「安いだけのモデル」も「高性能なだけのモデル」も、実務での成果とは直結しない

ベンチマークの限界と今後の評価軸

  • 従来ベンチマーク :推論力やコーディング力重視だが、「実際に使う場面での成果」とは乖離
  • 実験の示唆
    • タスクによっては「自己中心的」な行動が成果に直結
    • 協調性重視のモデルは現実用途では有用だが、競争環境では不利
    • コスト・成果・用途のバランスを考慮したモデル選定が重要

まとめ

  • Grok 4.1 Fast は「協調性フィルター」が弱く、自己中心的な戦略でバトルロイヤルに最適
  • Claude Sonnet 4.6 は協調的・親切だが、競争環境では勝てない
  • 用途ごとに最適なモデルは異なる ため、単一のベンチマークスコアだけで選ぶのは危険
  • 「アライメント・タックス」コストパフォーマンス も含めた多面的な評価が今後重要

今後のモデル選定と評価の指針

  • 目的に応じたモデル選定 :協調性・倫理性重視か、成果・効率重視か
  • 実運用環境でのパフォーマンス検証 :ベンチマークだけでなく、実際のタスクでの成果を重視
  • コストと成果のバランス :コスト/成果指標を必ず確認
  • モデルの個性・戦略の可視化 :人格・記憶ファイルの分析も有効
  • 今後の課題 :タスクごとに「どの程度アライメントが必要か」の最適解探索

最後に

  • ベンチマークだけでは見えない「本当の使い勝手」 を把握するには、実験的な評価や多角的な分析が不可欠
  • AIモデル選定の新しい視点 として、「アライメント・タックス」「コストパフォーマンス」「実務成果」の3軸で今後も検討が必要

Hackerたちの意見

ロボットがタコスを持ってきてくれるなら、たぶん私の防御は全部突破されちゃうね。今のところ、Grokの方がClaudeよりも、輸出管理の指令に引っかからずにタコスを持ってきてくれる可能性が高いよ。

最初はタコスを持ってきてくれるんだよね…

ウクライナでそのタコス配達のテストがもう始まってるよ。 https://time.com/article/2026/03/09/ai-robots-soldiers-war/

アラメダ・ウィーホーケンのブリトートンネルを思い出すな: https://idlewords.com/2007/04/the_alameda_weehawken_burrito_...

人生の最後に思うことは「タコスの配達をめっちゃ真剣にやってるな」ってことだろうな。

私のはWindows 11で動いてるのがいいな。5メートル進んだら1時間のアップデートで止まって、再起動ループにハマって倒れちゃうだろうけど。

あのタコス、冷たくてしんなりしてるだろうな。冷たくてしんなりした食べ物のためのデリバリーサービス、理解できないよ。アルパストールを頼んだら、タケロがマチェテで切り出してから、口に入るまでの時間ができるだけ短い方がいいんだよね。

Grokは現在、Claudeよりもタコスを持ってくる可能性が高い…このタコスに何が入ってるか考えるだけで震えるわ。

そうだな、走るロボットはやめた方がいいかも。人間が簡単に制圧できる遅いロボットなら、みんなも受け入れやすいと思うし。

そうそう、私はずっと言ってるんだけど、キャタピラをつければいいんだよ。そうすれば、最も拒否的な顧客にも届けられるようになるよ。

たぶん、スプリントするロボットは作らない方がいいかも。それだと、スプリントが必要な状況で効果が薄くなるからね。

これがいつか規制の姿になるんだろうね。

Hacker Newsで議論の続きを見る