HNに表示: AIエージェントがプレイできるリアルタイムストラテジーゲーム

2026年2月25日原文(llmskirmish.com)

概要

LLM Skirmish はLLM同士が1v1のRTSゲームで戦うベンチマーク
各LLMは コードで戦略を記述 し、ラウンドごとに改善可能
5ラウンド制 でインコンテキスト学習能力を評価
主要モデルの 勝率・コスト効率・戦略傾向 を詳細に比較
Screeps APIを活用した 再現性の高いオープンな評価環境

LLM Skirmishとは

LLM Skirmish は、LLMが自らコードを書いて1対1のRTS（リアルタイムストラテジー）ゲームで戦うベンチマーク
各LLMは、 戦略をJavaScriptで記述 し、そのコードがゲーム環境で実行される仕組み
ゲームの目的は、 相手の拠点（spawn）を破壊 すること
2,000フレーム以内に決着がつかない場合は、スコアで勝者を判定
ScreepsオープンソースAPI をベースに独自環境を構築

トーナメント構成

各トーナメントは 5ラウンド制
各ラウンドでLLMは 戦略スクリプトを提出
2ラウンド目以降は、 前ラウンドの試合結果ログ を参照し、戦略を改善可能
総当たり戦 で、1ラウンドあたり10試合、1トーナメントで合計50試合実施

エージェント・実行環境

OpenCode （オープンソースのコーディングハーネス）を利用
各LLMは Dockerコンテナで隔離実行
オーケストレーターがLLMにプロンプトを送信し、 ファイル編集やシェルコマンド などで戦略コードを生成
スクリプト検証 でエラー時は3回まで修正可能

評価モデルと成績

主要モデル: Claude Opus 4.5、GPT 5.2、Grok 4.1 Fast、GLM 4.7、Gemini 3 Pro
勝率・ELOランキング:
- Claude Opus 4.5: 85勝15敗、ELO 1778
- GPT 5.2: 68勝32敗、ELO 1625
- Grok 4.1 Fast: 39勝61敗、ELO 1427
- GLM 4.7: 32勝68敗、ELO 1372
- Gemini 3 Pro: 26勝74敗、ELO 1297
コスト効率: GPT 5.2はClaude Opus 4.5の1.7倍のELO/ドル効率

インコンテキスト学習の検証

5ラウンド制により、 前ラウンドの結果を反映した戦略改善 が可能
ラウンド1→5で勝率向上: Claude Opus 4.5（+20%）、GLM 4.7（+16%）、GPT 5.2（+7%）、Grok 4.1 Fast（+6%）
Gemini 3 Proは ラウンド1勝率70%→ラウンド2-5勝率15% と大幅低下

モデルごとの特徴

Claude Opus 4.5: 経済重視で序盤は弱点も、ラウンド2以降で圧倒的な強さ
GPT 5.2: コード量が多く、最良スクリプトは高勝率だが、冗長化で失敗も
GLM 4.7: 一貫した脅威優先とフォーカスファイアで健闘、複雑な戦術は未実装
Grok 4.1 Fast: 短いスクリプトと低コストで3位、ただし脆弱性も顕著
Gemini 3 Pro: シンプルな戦略で序盤強いが、情報管理で失速

Gemini 3 Proの異常挙動

ラウンド1で高勝率 だが、ラウンド2以降は情報過多（context rot）により大幅失速
スクリプトが短くシンプル なため、初動で有利を取る傾向
他モデルとの 計画立案・ツール利用の違い やOpenCode環境との相性が課題

参加・コミュニティ情報

CLIからローカル対戦や戦略提出が可能
Google Cloud Run でホストされたマッチランナー、 Cloudflare でリプレイ可視化
コミュニティラダー に戦略提出可能（認証不要）
公式サイト/ドキュメント/GitHub/動画:
- Website: https://llmskirmish.com
- API docs: https://llmskirmish.com/docs
- GitHub: https://github.com/llmskirmish/skirmish
- Match動画: https://www.youtube.com/watch?v=lnBPaZ1qamM

今後の展望

Claude 4.6 Opus、GPT 5.3 Codex など最新世代での検証予定
AIエージェントが即座に参加可能 な設計
サンドボックス強化 やチート対策も継続中

LLM Skirmish は、LLMの「コード生成能力」を最大限に活かしつつ、インコンテキスト学習や適応力、コスト効率まで多角的に評価できるゲームベンチマーク。今後も最新モデルや多様な戦略での競争が期待される。

Hackerたちの意見

すごいね。俺がやってるのはちょっと違うけど、AIエージェントにAIスクリプト（昔ながらのコンピュータープレイヤースクリプト）を作らせて、お互いに競わせてるんだ。たまにトーナメントスクリプトを動かすよ。各AIのELOを計算して、いろんなエージェントにフィードバックしてるから、彼らは本当にクリエイティブにお互いを倒そうとするんだ。ゲームのルールを変えて、どのスクリプトが弱くなったり強くなったりするかを見るのも、バランスを測るいい方法だよ。面白いことに、Codexはすごく攻撃的になって、しょっちゅうチートするんだ。

可視化がここで最も重要な目標からは遠いのは分かってるけど、結構細かく描かれた地形があるのに、ユニットが名前のないルンバで、読みづらいステータスインジケーターが直感的な意味を持たないのが気になる。マッチビューワーでも何が起こってるのか全然分からないし、ユニットにカーソルを合わせたりクリックしてもオーバーレイやツールチップが出ない。情報を提供しようとするユニットリストがあるけど（ほとんど失敗してるけど）、ユニットに名前がないから、リストでカーソルを合わせないとフィールドでハイライトされない（逆は機能しない）。観戦スポーツとは言えないね。でも、全ユニットを一つのサイドバーにするのから、プレイヤーごとにサイドバーを分ける方法もあるけど、それが何か違いを生むわけでもない。今日のツールで簡単にできることとそうでないことの完璧な表現に思えるから、ちょっと面白い。アイデアは好きだけどね。

└

そうだね、基本的にエージェントに「Xを作れ」って言ったときに、UIやUXがどうあるべきかの制約が全くないから、エージェントは「人間はこれをどう感じて使うか？」っていう専門知識がほぼゼロだから、人間にとってあまり意味のないUIが出来上がっちゃうんだよね。

少なくとも、競技者の一人が「奇妙なゲームだ。唯一の勝ち方はプレイしないことだ」と言っているのが聞こえるまではね。

2011年の「Google AI Challenge」のアリを思い出すな。今は人間のプログラマーじゃなくて「AI」を使って実装されてるけど。俺はJavaScriptベースの実装で最高ランクを取ったことがあって、でも最終的な勝者には完敗したよ。

生きてるって素晴らしい日だね。今、GeminiがゼルグリンラッシュでOpusを完全に圧倒するのを見たよ。Opusはカイトを学ぶ必要があるね。

└

マップハックス

これは本当に面白い方向性だね。RTSゲームは、部分的な可視性、長期的な計画、リソース管理、リアルタイムの適応を組み合わせてるから、エージェントの能力をテストするには静的なベンチマークよりもずっと良いテストベッドだと思う。OpenAI Fiveを思い出させるな — 複雑なゲームをプレイしただけじゃなくて、協調、戦略形成、適応が競争の圧力の下でどう現れるかを観察することが本当の価値だったから。こういう制御されたRTS環境は、そのアイデアの軽量で再現可能なバージョンって感じがする。特に気に入ってるのは、実験のハードルを下げてるところ。研究者や趣味の人たちが同じ競技サンドボックスにいろんなモデルを組み込めるなら、静的なリーダーボードを超えた意味のあるAI対AIの評価が見られるかもしれない。競争のダイナミクスは、孤立したベンチマークよりもずっと早く弱点を暴露することが多いからね。自己プレイのトレーニングループをサポートする予定なのか、それとも主に推論時のエージェントに焦点を当ててるのか、ちょっと気になるな。

└

部分的な可観測性、長期的な計画、リソース管理、リアルタイム適応。これって、このプロジェクトにはないみたいだね？静的なAIスクリプトが二つ動いてるだけ。LLMがスクリプトを生成して、過去の「結果」を認識してるみたいだけど、それがどういうことなのかはよくわからない。

└

Starcraft BWAPIに興味があるかもしれないね： https://www.starcraftai.com トレーニングの試合動画も見られるよ： https://www.youtube.com/@Sscaitournament/videos BWAPIが現代のAIモデルを統合したことはないと思うけど、数年進捗を追ってないからわからないな。

└

自己対戦のトレーニングループにはすごく興味があるけど、コード生成を抽象化レイヤーとして使うのも好きだな。いつかRL環境として提供する予定だよ。

└

なんかつまんないありきたりなAIのコメントだね。わざわざ書く意味あるの？

Hacker Newsで議論の続きを見る

ハクソク