トラッキングコパイロット vs. コーデックス vs. カーソル vs. デビンPRパフォーマンス

2025年6月5日原文(aavetis.github.io)

概要

主要なコーディングエージェントの統計情報を簡潔にまとめた一覧。各エージェント名をクリックすると詳細情報を表示。各指標をクリックするとリアルタイムのクエリを確認可能。合計PR数、マージ済みPR数、成功率を比較。インタラクティブチャートが読み込めない場合は静的バージョンで表示。

コーディングエージェント比較

GitHub Copilot
- 合計PR数： {{COPILOT_TOTAL}}
- マージ済みPR数： {{COPILOT_MERGED}}
- 成功率： {{COPILOT_RATE}} （%）
OpenAI Codex
- 合計PR数： {{CODEX_TOTAL}}
- マージ済みPR数： {{CODEX_MERGED}}
- 成功率： {{CODEX_RATE}} （%）
Cursor Agents
- 合計PR数： {{CURSOR_TOTAL}}
- マージ済みPR数： {{CURSOR_MERGED}}
- 成功率： {{CURSOR_RATE}} （%）
Devin
- 合計PR数： {{DEVIN_TOTAL}}
- マージ済みPR数： {{DEVIN_MERGED}}
- 成功率： {{DEVIN_RATE}} （%）
Codegen
- 合計PR数： {{CODEGEN_TOTAL}}
- マージ済みPR数： {{CODEGEN_MERGED}}
- 成功率： {{CODEGEN_RATE}} （%）

エージェント詳細表示方法

各エージェント名を クリック で詳細情報を展開。
各指標（合計PR数、マージ済みPR数、成功率）を クリック でライブクエリを表示。

チャート表示について

インタラクティブチャートが 正常に読み込めない場合、静的バージョンで代替表示。
AGENTS VIEW MODEによる切替機能。

用語解説

PR（プルリクエスト） ：コード変更の提案。
マージ済みPR ：承認されてプロジェクトに統合されたPR。
成功率 ：マージ済みPRの割合。

注意事項

一部データは リアルタイム更新 に対応。
チャートの表示状況は 環境依存 となる場合あり。

Hackerたちの意見

これって明らかな質問かもしれないけど、なんでClaude Codeが含まれてないの？

└

これらは全部「バックグラウンド」エージェントで、基本的にはコードを書いたりプルリクエストを出したりするためのもので、あなたが見守ったり、世話をしたりする必要がないんだよね。しばらくClaude Codeを使ってないけど、確かそれとは違ったはず。

└

OPのページがうまくいくのは、これらのコーディングエージェントが自分をPRの作者として認識させるから。だから、作成者はGitHubのイシュートラッカーでis:pr+head:copilotやis:pr+head:codexみたいなものを検索できるんだよね。Claude Codeはそれをやってないみたい？ちょっと調べた感じだと、Claude Codeを使っている人が生成したPRは自分のユーザーアカウントを使ってるけど、Claudeを使ったってサインすることがあるみたい。例：https://github.com/anthropics/claude-code/pull/1732

Google Julesはどう？それに、もちろんOpenAI Codexはこの手のタスクに特化してるから、パフォーマンスが良いのは当然だよね。一方でCursorはプログラミングの分野ではもっと汎用的なツール/アプリだし。

マージ率は確かに役立つ指標だけど、考慮すべき他の要素もいくつかあるよね（PRの小さい編集や大きな編集、リファクタリングと依存関係のアップグレード、直接マージ、マージされたミスを修正するフォローアップPR、これらのAIエージェントを設定するのがどれだけ簡単か、マーケティング、使用料など）。NPMのダウンロード数だけでは、パッケージの本当の成功や品質を反映しないのと同じだね。

└

ほとんどがかなり小さいと思うけど、それでもコードベースがちょっとでも良くなるなら全然OKだよね。

WindsurfやCursorみたいな専用ツールにはちょっとがっかりしてる。ChatGPTを使うよりも面倒なことが多いから。ニッチな役割はあるけど、使ってるとすごくフローが壊れるから、長時間使うのが難しいんだよね。でも、数日前からCodexをカジュアルに使い始めたら、もう3つのPRができたよ。目的に応じたツールがあるのはいいけど、Codexの完全非同期な感じはすごくいいね。シンプルなことをやってくれるし、一貫性を高めたり、小さな改善をするのが得意で、本当に助かる。特定の問題に対して、もっと家電みたいに動くものがやっと出てきた感じ。前は、まるで学習中のティーンエイジャーみたいだったから。

└

チャットアシスタントとしてCursorを使うだけでいいよ。

└

Claude Code試したことある？この分析に入ってないのが意外だけど、個人的な経験では競合は全然及ばないよ。本気で全部試してみた。ツールキットは（neo）vimとtmuxを使ってもう10年くらいだから、他のものを好むターミナルに不慣れな人の気持ちもわかるけど、俺にはこれが合ってて、めっちゃいいんだよね。

└

Macだと、chatgptがXcodeでいくつかのクエリを並行して生成するのが難しいのが嫌だな。

└

OpenAIはCodexでUX/DXをうまくやったね。これでCursorや似たようなIDEは完全に時代遅れだ。ツールにAIはいらないけど、コードを並行して作業してくれる誰かが必要なんだ。プルリクエストやブランチでやり取りできるのが嬉しい。木曜日にプラスサブスクリプションでCodexにアクセスできることがわかったんだ。それ以来、OSSプロジェクトで約12個のPRを作成してマージしたよ。完璧ではないけど、かなり良い感じ。後回しにしてた面倒な作業をやってもらったり、直せてなかったFIXMEをいくつか完了させたり、APIドキュメントを書かせたり、READMEを更新させたりした。PRのレビューも簡単だし、独自のブランチを作って作業してくれるのがいいね。実際にそのブランチをチェックアウトして、自分でいくつか修正してプッシュしてから、そのブランチに対してPRを作らせることもできる。いくつか小さなコンパイルの問題を直さなきゃいけなかったけど、あるケースでは、間違ってインポートを一つ削除するだけで、あとは全部ビルドできてテストも通った。全体的にかなり印象的だし、使いやすい。大きなコードベースではどうなるか気になるな。問題が出ると思うけど、次はそれを試してみるつもり。

（免責事項：私はGitHubでコーディングエージェントに関わっています）このデータは素晴らしいし、GitHub全体で自律的なコーディングエージェントの急成長を見るのはワクワクするね。マージ率に関して覚えておくべきことは、これらの製品が作業の異なるフェーズでPRを作成することなんだ。だから、PRの作成からマージまでを追跡するだけでは、各製品の物語が異なるんだよね。AIが生成したコードを反復する作業（十分に良くない場合は放棄する可能性もある）はプライベートで行われていて、ユーザーが共有/マージする準備ができたときに初めてGitHubのPRにプッシュされることがある。これがCodexの場合の例だよ。このような製品体験のマージ率は、ここで示されている統計では良く見えるけど、多くのAI生成コードの変更がプライベートで放棄されている場合もあるんだ。他の製品体験では、タスクが割り当てられたときにすぐにドラフトPRが生成されて、ユーザーはコーディングエージェントと一緒に「オープンに」反復できる。これによって、成功と失敗のケースの透明性が高まる（両方のエージェントセッションのログも含めて）。これはGitHub Copilotのコーディングエージェントの例だね。この「オープンに学ぶ」ことは、個人やチーム、業界にとって価値があると信じている。でも、これがここで報告されているマージ率が悪く見える原因にもなってるんだ。論理的には、他のツールの「タスク割り当てからマージされたPR」成功率と同じなのにね。ドラフトPRの概念をこれらのユースケースにもっと自然に進化させていくことを楽しみにしてるし、これらのコーディングエージェントがGitHubでオープンなコラボレーションから恩恵を受けられるようにしていきたい。

Hacker Newsで議論の続きを見る

ハクソク