概要
- FrontierCodeはAIによるコード生成の 品質 を評価する新しいベンチマーク
- マージ可能性 (実際にPRが承認されるか)を世界初で評価
- 20名以上の OSSメンテナ が現実的・多様なタスクを設計
- QCパイプラインにより 誤判定率81%減 (SWE-Bench Pro比)
- 最先端モデルでも 高難度タスクで苦戦、品質評価の新基準を提示
コードの正しさから品質へ:FrontierCodeの登場
- AIが生成するコードの 正しさ は既に標準となりつつある現状
- 本当に求められるのは 高品質な本番運用コード の生成能力
- FrontierCodeは マージ可能性 を軸に、エンドツーエンドのコード品質(正しさ、テスト品質、スコープ遵守、スタイル、基準準拠)を評価
- ユニットテスト、ルーブリック、新規検証手法の組み合わせによる採点
- 20名以上の 世界的OSSメンテナ が実タスクを設計・基準定義
- 各タスク40時間以上を投じて現実的な難易度・多様性を実現
- QCパイプライン による厳格な品質管理
- アドバーサリアルテスト、キャリブレーション、多段階レビュー
- Cognitionリサーチャーが全タスクを手動レビュー
- SWE-Bench Pro比で 誤判定率81%減
- FrontierCodeは モデルの保守性・品質生成能力を最も正確に測定
- 現状最も優れたモデルでも高難度タスクで13.4%のスコアに留まる
FrontierCodeの詳細と特徴
- 3段階の難易度セット: Diamond(最難50問)、Main(最難100問)、Extended(全150問)
- 2つの評価指標:
- Pass rate :マージ阻害要件を全て満たせば合格
- Score :ルーブリック項目の加重合計(ブロッカー不合格なら0点)
- 各モデルは 5回実行、最良の推論レベルで平均スコアを報告
- Diamondセットでの最高スコアは Claude Opus 4.8の13.4%
- GPT-5.5は6.3%、Gemini 3.1 Proは4.7%、他はさらに低スコア
- Open-sourceモデル(Kimi K2.6)はDiamondで3.8%、Mainで16%、Extendedで37%
なぜFrontierCodeが必要か
- 旧世代ベンチマーク(SWE-Bench等)は 機能的正しさのみ評価、品質や現実性に乏しい
- 誤判定( False Positives/Negatives)が多発
- 誤った解を合格とする/正しい解を不合格とする
- FrontierCodeは 誤判定を81%削減 し、最も正確な品質評価を実現
- タスク多様性の確保
- 既存ベンチは単一PRから自動生成、FrontierCodeは 複数PRや自由形式リクエスト から手動選定
- SWE-Bench Pro比で 3倍の言語 をカバー
- 過剰なガイダンス排除、人間と同等の文脈推論を要求
- タスク説明+コードベースガイドラインのみ、説明文も簡潔
採点方法・評価基準
- マージ可能性 を以下の観点で評価
- 振る舞いの正しさ
- 既存コードのリグレッション安全性
- 機械的クリーンさ(ビルド・Lint・スタイル合格)
- テストの正しさ
- スコープ遵守(必要最小限の変更範囲)
- コード品質(設計・可読性・規約適合)
- クラシカルテスト・逆クラシカルテスト・適応型採点・スコープチェック など複数手法を組み合わせ
- 各基準はブロッカー(必須)/ノンブロッカー(品質シグナル)に分類
- ブロッカー全合格でスコア加算、1つでも不合格なら0点
新規採点技法
- 逆クラシカルテスト :エージェントが書いたテストが、元のバグ有コードで失敗するか自動判定
- スコープチェック :変更範囲の自動制約(ファイル・行数・意味的ローカリティ)
- 適応型クラシカル採点 :複数解に対応、LLMでテストやコードを自動修正し柔軟採点
OSSメンテナの声
- 「FrontierCodeはCI的な採点ではなく、 Tech Lead がレビューするような品質基準」
- 「 細部まで調整された難易度、従来にない深さ」
- 「 主観的な品質 の現実世界での尊重、新しいマイルストーン」
- 「 人間の経験 に基づく基準で、SWE評価の新たな水準」
今後の展望
- FrontierCodeは今後、 AIモデルのコード生成品質評価の新標準 となる可能性
- 本番投入可能なAIコード生成のための指針・課題明確化
- コード品質・保守性向上のための 客観的ベンチマーク としてOSS・企業で活用期待