概要
- LLMエージェント はコード自動生成で高い性能を示すが、構造的制約には弱い傾向
- 既存ベンチマーク は機能要件のみ重視し、構造的要件を軽視
- 80件の新規生成タスク と 20件の機能追加タスク で体系的評価を実施
- 構造的制約が増加 するほど、エージェントのパフォーマンスが大幅に低下
- データ層の欠陥 が主な失敗要因であり、課題解決が今後の焦点
LLMエージェントの構造的制約下でのコード生成能力の評価
- LLMエージェント は、仕様が緩い場合には自律的なコード生成で優れた成果を発揮
- プロダクションレベルのソフトウェア には、アーキテクチャパターンやデータベース、ORMなどの厳格な構造的制約が必要
- 従来のベンチマーク は、機能的に正しいが構造的には恣意的な解決策を評価しがち
- 本研究では、 統一API契約 を用いて80件の新規タスクと20件の機能追加タスクを設定
- 8種類のWebフレームワーク (Flask, FastAPI, Djangoなど)を対象
- エンドツーエンドの振る舞いテスト と 静的検証ツール による二重評価を実施
主な発見と課題
- Constraint Decay現象
- 構造的要件が増すほど、エージェントの性能が大きく低下
- 高性能な設定でも、ベースラインから完全指定タスクまでで アサーション合格率が平均30ポイント低下
- 一部の弱い設定では 合格率がほぼゼロ まで低下
- フレームワーク感度
- 最小限かつ明示的なフレームワーク(例:Flask)では成功率が高い
- 規約重視型のフレームワーク(例:FastAPI, Django)では平均的に性能が著しく低下
- エラー分析
- 最大の失敗要因は データ層の不備
- クエリ構築ミス
- ORMのランタイム違反
- 最大の失敗要因は データ層の不備
- 機能要件と構造要件の同時充足 は、依然としてコーディングエージェントの大きな未解決課題
今後の展望
- 構造的制約を考慮したエージェント設計 の重要性
- データ層やORMの理解強化 が性能向上のカギ
- ベンチマークや評価指標の見直し による現実的なエージェント評価手法の確立