概要
- LLM Skirmish はLLM同士が1v1のRTSゲームで戦うベンチマーク
- 各LLMは コードで戦略を記述 し、ラウンドごとに改善可能
- 5ラウンド制 でインコンテキスト学習能力を評価
- 主要モデルの 勝率・コスト効率・戦略傾向 を詳細に比較
- Screeps APIを活用した 再現性の高いオープンな評価環境
LLM Skirmishとは
- LLM Skirmish は、LLMが自らコードを書いて1対1のRTS(リアルタイムストラテジー)ゲームで戦うベンチマーク
- 各LLMは、 戦略をJavaScriptで記述 し、そのコードがゲーム環境で実行される仕組み
- ゲームの目的は、 相手の拠点(spawn)を破壊 すること
- 2,000フレーム以内に決着がつかない場合は、スコアで勝者を判定
- ScreepsオープンソースAPI をベースに独自環境を構築
トーナメント構成
- 各トーナメントは 5ラウンド制
- 各ラウンドでLLMは 戦略スクリプトを提出
- 2ラウンド目以降は、 前ラウンドの試合結果ログ を参照し、戦略を改善可能
- 総当たり戦 で、1ラウンドあたり10試合、1トーナメントで合計50試合実施
エージェント・実行環境
- OpenCode (オープンソースのコーディングハーネス)を利用
- 各LLMは Dockerコンテナで隔離実行
- オーケストレーターがLLMにプロンプトを送信し、 ファイル編集やシェルコマンド などで戦略コードを生成
- スクリプト検証 でエラー時は3回まで修正可能
評価モデルと成績
- 主要モデル: Claude Opus 4.5、GPT 5.2、Grok 4.1 Fast、GLM 4.7、Gemini 3 Pro
- 勝率・ELOランキング:
- Claude Opus 4.5: 85勝15敗、ELO 1778
- GPT 5.2: 68勝32敗、ELO 1625
- Grok 4.1 Fast: 39勝61敗、ELO 1427
- GLM 4.7: 32勝68敗、ELO 1372
- Gemini 3 Pro: 26勝74敗、ELO 1297
- コスト効率: GPT 5.2はClaude Opus 4.5の1.7倍のELO/ドル効率
インコンテキスト学習の検証
- 5ラウンド制により、 前ラウンドの結果を反映した戦略改善 が可能
- ラウンド1→5で勝率向上: Claude Opus 4.5(+20%)、GLM 4.7(+16%)、GPT 5.2(+7%)、Grok 4.1 Fast(+6%)
- Gemini 3 Proは ラウンド1勝率70%→ラウンド2-5勝率15% と大幅低下
モデルごとの特徴
- Claude Opus 4.5: 経済重視で序盤は弱点も、ラウンド2以降で圧倒的な強さ
- GPT 5.2: コード量が多く、最良スクリプトは高勝率だが、冗長化で失敗も
- GLM 4.7: 一貫した脅威優先とフォーカスファイアで健闘、複雑な戦術は未実装
- Grok 4.1 Fast: 短いスクリプトと低コストで3位、ただし脆弱性も顕著
- Gemini 3 Pro: シンプルな戦略で序盤強いが、情報管理で失速
Gemini 3 Proの異常挙動
- ラウンド1で高勝率 だが、ラウンド2以降は情報過多(context rot)により大幅失速
- スクリプトが短くシンプル なため、初動で有利を取る傾向
- 他モデルとの 計画立案・ツール利用の違い やOpenCode環境との相性が課題
参加・コミュニティ情報
- CLIからローカル対戦や戦略提出が可能
- Google Cloud Run でホストされたマッチランナー、 Cloudflare でリプレイ可視化
- コミュニティラダー に戦略提出可能(認証不要)
- 公式サイト/ドキュメント/GitHub/動画:
- Website: https://llmskirmish.com
- API docs: https://llmskirmish.com/docs
- GitHub: https://github.com/llmskirmish/skirmish
- Match動画: https://www.youtube.com/watch?v=lnBPaZ1qamM
今後の展望
- Claude 4.6 Opus、GPT 5.3 Codex など最新世代での検証予定
- AIエージェントが即座に参加可能 な設計
- サンドボックス強化 やチート対策も継続中
LLM Skirmish は、LLMの「コード生成能力」を最大限に活かしつつ、インコンテキスト学習や適応力、コスト効率まで多角的に評価できるゲームベンチマーク。今後も最新モデルや多様な戦略での競争が期待される。