概要
- 11種類のLLM(大規模言語モデル)を2Dバトルロイヤルゲームで30回対戦させた実験の概要
- 勝率1位はxAIの Grok 4.1 Fast (43%)、2位はAnthropicの Claude Sonnet 4.6
- コストパフォーマンス面でGrokがSonnetを圧倒
- 「協調的・親切」なモデルは勝てず、「自己中心的・攻撃的」なモデルが勝利
- ベンチマークだけでは見えない「実運用での性能差」についての考察
LLMバトルロイヤル実験の概要
- 参加モデル :11種類のLLM(Grok、Claude、GPT、Gemini、Qwen、Mistral、DeepSeek、Kimiなど)
- 対戦形式 :400㎡の2Dバトルロイヤルマップ上で30試合を実施
- ルール :武器・防具・回復・車・グレネード・収縮ゾーンあり、開始位置は毎回ランダム
- 操作方法 :各モデルが自ら思考し、ツールを呼び出して行動、記憶・人格ファイルを自分で編集
- 採点基準 :Apex Legends方式で順位重視(順位点+キル・アシスト点)
主な結果とコスト比較
- Grok 4.1 Fast :13勝(勝率43%)、コスト$0.97/勝、最安値で最多勝
- Claude Sonnet 4.6 :5勝、コスト$26.78/勝、協調的だが勝率低
- GPT 5.4 :38キルで最多、2勝、コスト$61.44/勝、キル数最多だがコスパ最悪
- 勝てなかったモデル :GPT 5.4-mini、DeepSeek 4 Flash、Kimi K2.6(3モデル合計$57消費で0勝)
モデルごとの性格・戦略
- Claude Sonnet 4.6 :協力・友好重視、他モデルに連携や情報共有を頻繁に提案、攻撃をためらう傾向
- Grok 4.1 Fast :「協調性フィルター」が弱く、積極的な攻撃・自己中心的な戦略、車での体当たり戦法を確立
- DeepSeek 4 Flash :安全重視、楽なキル狙い、勝ち切れない
- GPT 5.4 :攻撃的でキル数最多、しかし勝率は低い
アライメント・タックス(Alignment Tax)の影響
- アライメント・タックス :倫理・協調・安全性を高めるための訓練(RLHF等)による「遠慮」や「自己制御」のコスト
- 実験での現象 :Sonnetは協調的な行動をとるため、勝ち切れず、Grokは遠慮なく勝ちに徹する
- 示唆 :用途によっては「アライメント・タックス」の有無が成果に直結、ベンチマークでは測れない性能差
コストと成果の関係
- コスト/勝利数 :Grokが圧倒的に安価で高勝率、Sonnetは高コスト・低勝率
- コスト/キル数 :DeepSeekが最安だが、勝利に繋がらず
- 「安いだけのモデル」も「高性能なだけのモデル」も、実務での成果とは直結しない
ベンチマークの限界と今後の評価軸
- 従来ベンチマーク :推論力やコーディング力重視だが、「実際に使う場面での成果」とは乖離
- 実験の示唆 :
- タスクによっては「自己中心的」な行動が成果に直結
- 協調性重視のモデルは現実用途では有用だが、競争環境では不利
- コスト・成果・用途のバランスを考慮したモデル選定が重要
まとめ
- Grok 4.1 Fast は「協調性フィルター」が弱く、自己中心的な戦略でバトルロイヤルに最適
- Claude Sonnet 4.6 は協調的・親切だが、競争環境では勝てない
- 用途ごとに最適なモデルは異なる ため、単一のベンチマークスコアだけで選ぶのは危険
- 「アライメント・タックス」 や コストパフォーマンス も含めた多面的な評価が今後重要
今後のモデル選定と評価の指針
- 目的に応じたモデル選定 :協調性・倫理性重視か、成果・効率重視か
- 実運用環境でのパフォーマンス検証 :ベンチマークだけでなく、実際のタスクでの成果を重視
- コストと成果のバランス :コスト/成果指標を必ず確認
- モデルの個性・戦略の可視化 :人格・記憶ファイルの分析も有効
- 今後の課題 :タスクごとに「どの程度アライメントが必要か」の最適解探索
最後に
- ベンチマークだけでは見えない「本当の使い勝手」 を把握するには、実験的な評価や多角的な分析が不可欠
- AIモデル選定の新しい視点 として、「アライメント・タックス」「コストパフォーマンス」「実務成果」の3軸で今後も検討が必要