世界を動かす技術を、日本語で。

トラッキングコパイロット vs. コーデックス vs. カーソル vs. デビンPRパフォーマンス

概要

主要なコーディングエージェントの統計情報を簡潔にまとめた一覧。 各エージェント名をクリックすると詳細情報を表示。 各指標をクリックするとリアルタイムのクエリを確認可能。 合計PR数、マージ済みPR数、成功率を比較。 インタラクティブチャートが読み込めない場合は静的バージョンで表示。

コーディングエージェント比較

  • GitHub Copilot
    • 合計PR数: {{COPILOT_TOTAL}}
    • マージ済みPR数: {{COPILOT_MERGED}}
    • 成功率: {{COPILOT_RATE}} (%)
  • OpenAI Codex
    • 合計PR数: {{CODEX_TOTAL}}
    • マージ済みPR数: {{CODEX_MERGED}}
    • 成功率: {{CODEX_RATE}} (%)
  • Cursor Agents
    • 合計PR数: {{CURSOR_TOTAL}}
    • マージ済みPR数: {{CURSOR_MERGED}}
    • 成功率: {{CURSOR_RATE}} (%)
  • Devin
    • 合計PR数: {{DEVIN_TOTAL}}
    • マージ済みPR数: {{DEVIN_MERGED}}
    • 成功率: {{DEVIN_RATE}} (%)
  • Codegen
    • 合計PR数: {{CODEGEN_TOTAL}}
    • マージ済みPR数: {{CODEGEN_MERGED}}
    • 成功率: {{CODEGEN_RATE}} (%)

エージェント詳細表示方法

  • 各エージェント名を クリック で詳細情報を展開。
  • 各指標(合計PR数、マージ済みPR数、成功率)を クリック でライブクエリを表示。

チャート表示について

  • インタラクティブチャートが 正常に読み込めない場合、静的バージョンで代替表示。
  • AGENTS VIEW MODEによる切替機能。

用語解説

  • PR(プルリクエスト) :コード変更の提案。
  • マージ済みPR :承認されてプロジェクトに統合されたPR。
  • 成功率 :マージ済みPRの割合。

注意事項

  • 一部データは リアルタイム更新 に対応。
  • チャートの表示状況は 環境依存 となる場合あり。

Hackerたちの意見

これって明らかな質問かもしれないけど、なんでClaude Codeが含まれてないの?

これらは全部「バックグラウンド」エージェントで、基本的にはコードを書いたりプルリクエストを出したりするためのもので、あなたが見守ったり、世話をしたりする必要がないんだよね。しばらくClaude Codeを使ってないけど、確かそれとは違ったはず。

OPのページがうまくいくのは、これらのコーディングエージェントが自分をPRの作者として認識させるから。だから、作成者はGitHubのイシュートラッカーでis:pr+head:copilotやis:pr+head:codexみたいなものを検索できるんだよね。Claude Codeはそれをやってないみたい?ちょっと調べた感じだと、Claude Codeを使っている人が生成したPRは自分のユーザーアカウントを使ってるけど、Claudeを使ったってサインすることがあるみたい。例:https://github.com/anthropics/claude-code/pull/1732

Google Julesはどう?それに、もちろんOpenAI Codexはこの手のタスクに特化してるから、パフォーマンスが良いのは当然だよね。一方でCursorはプログラミングの分野ではもっと汎用的なツール/アプリだし。

マージ率は確かに役立つ指標だけど、考慮すべき他の要素もいくつかあるよね(PRの小さい編集や大きな編集、リファクタリングと依存関係のアップグレード、直接マージ、マージされたミスを修正するフォローアップPR、これらのAIエージェントを設定するのがどれだけ簡単か、マーケティング、使用料など)。NPMのダウンロード数だけでは、パッケージの本当の成功や品質を反映しないのと同じだね。

ほとんどがかなり小さいと思うけど、それでもコードベースがちょっとでも良くなるなら全然OKだよね。

WindsurfやCursorみたいな専用ツールにはちょっとがっかりしてる。ChatGPTを使うよりも面倒なことが多いから。ニッチな役割はあるけど、使ってるとすごくフローが壊れるから、長時間使うのが難しいんだよね。でも、数日前からCodexをカジュアルに使い始めたら、もう3つのPRができたよ。目的に応じたツールがあるのはいいけど、Codexの完全非同期な感じはすごくいいね。シンプルなことをやってくれるし、一貫性を高めたり、小さな改善をするのが得意で、本当に助かる。特定の問題に対して、もっと家電みたいに動くものがやっと出てきた感じ。前は、まるで学習中のティーンエイジャーみたいだったから。

チャットアシスタントとしてCursorを使うだけでいいよ。

Claude Code試したことある?この分析に入ってないのが意外だけど、個人的な経験では競合は全然及ばないよ。本気で全部試してみた。ツールキットは(neo)vimとtmuxを使ってもう10年くらいだから、他のものを好むターミナルに不慣れな人の気持ちもわかるけど、俺にはこれが合ってて、めっちゃいいんだよね。

Macだと、chatgptがXcodeでいくつかのクエリを並行して生成するのが難しいのが嫌だな。

OpenAIはCodexでUX/DXをうまくやったね。これでCursorや似たようなIDEは完全に時代遅れだ。ツールにAIはいらないけど、コードを並行して作業してくれる誰かが必要なんだ。プルリクエストやブランチでやり取りできるのが嬉しい。木曜日にプラスサブスクリプションでCodexにアクセスできることがわかったんだ。それ以来、OSSプロジェクトで約12個のPRを作成してマージしたよ。完璧ではないけど、かなり良い感じ。後回しにしてた面倒な作業をやってもらったり、直せてなかったFIXMEをいくつか完了させたり、APIドキュメントを書かせたり、READMEを更新させたりした。PRのレビューも簡単だし、独自のブランチを作って作業してくれるのがいいね。実際にそのブランチをチェックアウトして、自分でいくつか修正してプッシュしてから、そのブランチに対してPRを作らせることもできる。いくつか小さなコンパイルの問題を直さなきゃいけなかったけど、あるケースでは、間違ってインポートを一つ削除するだけで、あとは全部ビルドできてテストも通った。全体的にかなり印象的だし、使いやすい。大きなコードベースではどうなるか気になるな。問題が出ると思うけど、次はそれを試してみるつもり。

(免責事項:私はGitHubでコーディングエージェントに関わっています)このデータは素晴らしいし、GitHub全体で自律的なコーディングエージェントの急成長を見るのはワクワクするね。マージ率に関して覚えておくべきことは、これらの製品が作業の異なるフェーズでPRを作成することなんだ。だから、PRの作成からマージまでを追跡するだけでは、各製品の物語が異なるんだよね。AIが生成したコードを反復する作業(十分に良くない場合は放棄する可能性もある)はプライベートで行われていて、ユーザーが共有/マージする準備ができたときに初めてGitHubのPRにプッシュされることがある。これがCodexの場合の例だよ。このような製品体験のマージ率は、ここで示されている統計では良く見えるけど、多くのAI生成コードの変更がプライベートで放棄されている場合もあるんだ。他の製品体験では、タスクが割り当てられたときにすぐにドラフトPRが生成されて、ユーザーはコーディングエージェントと一緒に「オープンに」反復できる。これによって、成功と失敗のケースの透明性が高まる(両方のエージェントセッションのログも含めて)。これはGitHub Copilotのコーディングエージェントの例だね。この「オープンに学ぶ」ことは、個人やチーム、業界にとって価値があると信じている。でも、これがここで報告されているマージ率が悪く見える原因にもなってるんだ。論理的には、他のツールの「タスク割り当てからマージされたPR」成功率と同じなのにね。ドラフトPRの概念をこれらのユースケースにもっと自然に進化させていくことを楽しみにしてるし、これらのコーディングエージェントがGitHubでオープンなコラボレーションから恩恵を受けられるようにしていきたい。

いい指摘だね!でも、人間のエンジニアリング時間と「オープンでの学び」のメリットの間には重要なトレードオフがあるよね。プライベートで破棄されたPRは人間のエンジニアリング時間を消費しないから、関わった人たちにはありがたい事実かも。どうやってそのトレードオフをバランス取るの?人間と一緒に繰り返すには「悪すぎる」diffってあるの?

あなたのチームはAIエージェントによって生成されたコミットの著作権についてどう考えてる?著作権で保護されるのかな?現在のアメリカの立場はこうみたいだよ:https://www.copyright.gov/newsnet/2025/1060.html 「人間の著者が十分な表現要素を決定した場合に限り、生成AIの出力は著作権で保護されることができると結論づけている」。もしコミット全体がAIによって生成されたら、それを作ったのは明らかにAIだよね。そういうコミットは法律で保護されないかもしれない。これについてあなたのチームはもう分析したことある?

各エージェントのユニークなリポジトリの数や、ユニークな大きなリポジトリの数(例えば、スターの数での閾値)を見るのも価値があるよ。こちらがチェックできるレポートだよ: https://play.clickhouse.com/play?user=play#V0lUSCByZXBvX3N0Y... jetbrains-junieみたいなあまり人気のないエージェントも追加したし、各エージェントのランダムなプルリクエストへのリンクも追加したから、例のPRを見てみよう。

これめっちゃクールだし、もっと上に評価されるべきだと思う。特にブラウザで自由に編集して再実行できるからね。「スパークバーチャート」の出力は、最近見た中で一番面白いものの一つだ。素晴らしい機能だね。

Claude Codeはどこにあるの?この分析から完全に外されてるのが驚きだよ。

Google Julesも同じだね。

Claude Codeは完全なエージェントじゃないよ - 自動的にPRを開くことはできないと思う。

それは「エージェント」って感じじゃなくて、実際には自律的じゃないと思う。

Codexって最近リリースされたばかりじゃなかったっけ?なんで他のものよりも桁違いに多いの?

OpenAIのブランドは、すでに多くの消費者や企業に使われてるよね。配信のアドバンテージもあるし。

これを使ってる人たちに聞きたいんだけど、エージェントがPRを作ってレビューするのって、CursorやClaude Codeでローカルで修正してからコミットするのと比べてメリットあるの?早くエラーを直せるのに、余計な手続きが増えるだけな気がする。

非LLMのチームメンバーの問題は置いといて、PRはGHのイシューをメモ代わりに使ってるなら役立つらしい。でも、必要がなければ気にしないよ。Claudeには変更があったと感じたら自動でコミットさせて、プッシュする前に自分で整理してる(だいたいはスカッシュだけど)。

これらのツールはGitHub中心みたいだね。リポジトリをGitLabで管理してるチーム向けに何かアドバイスある?