世界を動かす技術を、日本語で。

HNに表示: AIエージェントがプレイできるリアルタイムストラテジーゲーム

概要

  • LLM Skirmish はLLM同士が1v1のRTSゲームで戦うベンチマーク
  • 各LLMは コードで戦略を記述 し、ラウンドごとに改善可能
  • 5ラウンド制 でインコンテキスト学習能力を評価
  • 主要モデルの 勝率・コスト効率・戦略傾向 を詳細に比較
  • Screeps APIを活用した 再現性の高いオープンな評価環境

LLM Skirmishとは

  • LLM Skirmish は、LLMが自らコードを書いて1対1のRTS(リアルタイムストラテジー)ゲームで戦うベンチマーク
  • 各LLMは、 戦略をJavaScriptで記述 し、そのコードがゲーム環境で実行される仕組み
  • ゲームの目的は、 相手の拠点(spawn)を破壊 すること
  • 2,000フレーム以内に決着がつかない場合は、スコアで勝者を判定
  • ScreepsオープンソースAPI をベースに独自環境を構築

トーナメント構成

  • 各トーナメントは 5ラウンド制
  • 各ラウンドでLLMは 戦略スクリプトを提出
  • 2ラウンド目以降は、 前ラウンドの試合結果ログ を参照し、戦略を改善可能
  • 総当たり戦 で、1ラウンドあたり10試合、1トーナメントで合計50試合実施

エージェント・実行環境

  • OpenCode (オープンソースのコーディングハーネス)を利用
  • 各LLMは Dockerコンテナで隔離実行
  • オーケストレーターがLLMにプロンプトを送信し、 ファイル編集やシェルコマンド などで戦略コードを生成
  • スクリプト検証 でエラー時は3回まで修正可能

評価モデルと成績

  • 主要モデル: Claude Opus 4.5、GPT 5.2、Grok 4.1 Fast、GLM 4.7、Gemini 3 Pro
  • 勝率・ELOランキング:
    • Claude Opus 4.5: 85勝15敗、ELO 1778
    • GPT 5.2: 68勝32敗、ELO 1625
    • Grok 4.1 Fast: 39勝61敗、ELO 1427
    • GLM 4.7: 32勝68敗、ELO 1372
    • Gemini 3 Pro: 26勝74敗、ELO 1297
  • コスト効率: GPT 5.2はClaude Opus 4.5の1.7倍のELO/ドル効率

インコンテキスト学習の検証

  • 5ラウンド制により、 前ラウンドの結果を反映した戦略改善 が可能
  • ラウンド1→5で勝率向上: Claude Opus 4.5(+20%)、GLM 4.7(+16%)、GPT 5.2(+7%)、Grok 4.1 Fast(+6%)
  • Gemini 3 Proは ラウンド1勝率70%→ラウンド2-5勝率15% と大幅低下

モデルごとの特徴

  • Claude Opus 4.5: 経済重視で序盤は弱点も、ラウンド2以降で圧倒的な強さ
  • GPT 5.2: コード量が多く、最良スクリプトは高勝率だが、冗長化で失敗も
  • GLM 4.7: 一貫した脅威優先とフォーカスファイアで健闘、複雑な戦術は未実装
  • Grok 4.1 Fast: 短いスクリプトと低コストで3位、ただし脆弱性も顕著
  • Gemini 3 Pro: シンプルな戦略で序盤強いが、情報管理で失速

Gemini 3 Proの異常挙動

  • ラウンド1で高勝率 だが、ラウンド2以降は情報過多(context rot)により大幅失速
  • スクリプトが短くシンプル なため、初動で有利を取る傾向
  • 他モデルとの 計画立案・ツール利用の違い やOpenCode環境との相性が課題

参加・コミュニティ情報

  • CLIからローカル対戦や戦略提出が可能
  • Google Cloud Run でホストされたマッチランナー、 Cloudflare でリプレイ可視化
  • コミュニティラダー に戦略提出可能(認証不要)
  • 公式サイト/ドキュメント/GitHub/動画:
    • Website: https://llmskirmish.com
    • API docs: https://llmskirmish.com/docs
    • GitHub: https://github.com/llmskirmish/skirmish
    • Match動画: https://www.youtube.com/watch?v=lnBPaZ1qamM

今後の展望

  • Claude 4.6 Opus、GPT 5.3 Codex など最新世代での検証予定
  • AIエージェントが即座に参加可能 な設計
  • サンドボックス強化 やチート対策も継続中

LLM Skirmish は、LLMの「コード生成能力」を最大限に活かしつつ、インコンテキスト学習や適応力、コスト効率まで多角的に評価できるゲームベンチマーク。今後も最新モデルや多様な戦略での競争が期待される。

Hackerたちの意見

すごいね。俺がやってるのはちょっと違うけど、AIエージェントにAIスクリプト(昔ながらのコンピュータープレイヤースクリプト)を作らせて、お互いに競わせてるんだ。たまにトーナメントスクリプトを動かすよ。各AIのELOを計算して、いろんなエージェントにフィードバックしてるから、彼らは本当にクリエイティブにお互いを倒そうとするんだ。ゲームのルールを変えて、どのスクリプトが弱くなったり強くなったりするかを見るのも、バランスを測るいい方法だよ。面白いことに、Codexはすごく攻撃的になって、しょっちゅうチートするんだ。

可視化がここで最も重要な目標からは遠いのは分かってるけど、結構細かく描かれた地形があるのに、ユニットが名前のないルンバで、読みづらいステータスインジケーターが直感的な意味を持たないのが気になる。マッチビューワーでも何が起こってるのか全然分からないし、ユニットにカーソルを合わせたりクリックしてもオーバーレイやツールチップが出ない。情報を提供しようとするユニットリストがあるけど(ほとんど失敗してるけど)、ユニットに名前がないから、リストでカーソルを合わせないとフィールドでハイライトされない(逆は機能しない)。観戦スポーツとは言えないね。でも、全ユニットを一つのサイドバーにするのから、プレイヤーごとにサイドバーを分ける方法もあるけど、それが何か違いを生むわけでもない。今日のツールで簡単にできることとそうでないことの完璧な表現に思えるから、ちょっと面白い。アイデアは好きだけどね。

そうだね、基本的にエージェントに「Xを作れ」って言ったときに、UIやUXがどうあるべきかの制約が全くないから、エージェントは「人間はこれをどう感じて使うか?」っていう専門知識がほぼゼロだから、人間にとってあまり意味のないUIが出来上がっちゃうんだよね。

少なくとも、競技者の一人が「奇妙なゲームだ。唯一の勝ち方はプレイしないことだ」と言っているのが聞こえるまではね。

2011年の「Google AI Challenge」のアリを思い出すな。今は人間のプログラマーじゃなくて「AI」を使って実装されてるけど。俺はJavaScriptベースの実装で最高ランクを取ったことがあって、でも最終的な勝者には完敗したよ。

生きてるって素晴らしい日だね。今、GeminiがゼルグリンラッシュでOpusを完全に圧倒するのを見たよ。Opusはカイトを学ぶ必要があるね。

マップハックス

これは本当に面白い方向性だね。RTSゲームは、部分的な可視性、長期的な計画、リソース管理、リアルタイムの適応を組み合わせてるから、エージェントの能力をテストするには静的なベンチマークよりもずっと良いテストベッドだと思う。OpenAI Fiveを思い出させるな — 複雑なゲームをプレイしただけじゃなくて、協調、戦略形成、適応が競争の圧力の下でどう現れるかを観察することが本当の価値だったから。こういう制御されたRTS環境は、そのアイデアの軽量で再現可能なバージョンって感じがする。特に気に入ってるのは、実験のハードルを下げてるところ。研究者や趣味の人たちが同じ競技サンドボックスにいろんなモデルを組み込めるなら、静的なリーダーボードを超えた意味のあるAI対AIの評価が見られるかもしれない。競争のダイナミクスは、孤立したベンチマークよりもずっと早く弱点を暴露することが多いからね。自己プレイのトレーニングループをサポートする予定なのか、それとも主に推論時のエージェントに焦点を当ててるのか、ちょっと気になるな。

部分的な可観測性、長期的な計画、リソース管理、リアルタイム適応。これって、このプロジェクトにはないみたいだね?静的なAIスクリプトが二つ動いてるだけ。LLMがスクリプトを生成して、過去の「結果」を認識してるみたいだけど、それがどういうことなのかはよくわからない。

Starcraft BWAPIに興味があるかもしれないね: https://www.starcraftai.com トレーニングの試合動画も見られるよ: https://www.youtube.com/@Sscaitournament/videos BWAPIが現代のAIモデルを統合したことはないと思うけど、数年進捗を追ってないからわからないな。

自己対戦のトレーニングループにはすごく興味があるけど、コード生成を抽象化レイヤーとして使うのも好きだな。いつかRL環境として提供する予定だよ。

なんかつまんないありきたりなAIのコメントだね。わざわざ書く意味あるの?

テキストだけの空間推論を見てみたいな。つまり、LLMが2D/3D空間で何が起こっているかのテキストによる投影を見て、それに基づいてその空間で何をするか決めるってこと。例えば、作家が本の中で何かを描写する時にはちょっと機能するけど、これがどう一般化できるのかはわからないな。

信じられないかもしれないけど、うちの8年生の息子がアメリカ史の宿題でオレゴントレイルをプレイすることになったんだ。彼が「宿題をやってる」様子を見てすごく面白かったよ。LLMがあのゲームでどうなるか気になるな、だってほとんどテキストの選択肢で進むアドベンチャーみたいなものだから。

おお、仲間の人間よ、これは素晴らしい仕事だ!これが、軍事戦術や戦略に基づいて訓練されたAIの競技チームを見たい(そして賭けたい!)人々でいっぱいのサッカースタジアの基盤を築くことになると予見してるよ!すぐにAIオリンピックが開催されるだろう!想像してみて、仲間の酸素を変換する人間の友よ!何万ものロボットやドローンが、同時に地球上のスタジアムで競い合うんだ!人類史上、最大で最もユニークな一度きりのスペクタクルの始まりを告げる、世界中で同期したカウントダウンがあると予見してるよ!頑張ってね!

これ、Unreal TournamentのXanエピソードを思い出させるな。何のことか気になる人のためにリンクを貼っておくね: https://www.youtube.com/watch?v=1F-rAW3vXOU 私たちのエンターテイメントのためにAIをアリーナで戦わせるって、何が悪いことになるんだろう?(これは冗談だからね、LLMが現在意識や感情を持ってないことは十分わかってるよ)

マルチエージェントのRTS環境は、協調や戦略的推論のテストベッドとして素晴らしいね。StarCraft IIのようなクラシックなRLベンチマークでは、エージェントはミクロを学べるけど、マクロ戦略や長期計画には苦労してるのが示されたよ。このプラットフォームは階層的なエージェントやチームメイト間の通信プロトコルをサポートしてるのかな?

LLMスカーミッシュは今のところ1対1だけど、エージェントは過去の試合結果を見て戦略を練れるよ。

なんかこれ、昔のメールで遊ぶゲーム「C++Robots」を思い出すな。アイデアは好きだったけど、タイムスライスの制限がめっちゃウザかった。若い頃は、Java仮想マシンで動く似たようなものを再実装したいって夢見てたんだ。デバッガーインターフェースを使ってロボットを実行できれば、ゲーム環境での「リアルタイム感」をもっと本格的にできると思ってた。アイデアは安いけど、実行するのは難しいよね。