概要
SkillsBench は、LLMエージェントのスキル活用効果を評価するための新しいベンチマーク。 86タスク・11ドメインで、 スキル有無・自己生成スキル の3条件を比較。 Curated Skills (厳選スキル)は平均16.2ポイントのパス率向上を実現。 自己生成スキル は平均で効果なし、モデルによるスキル自作の限界を示唆。 小規模モデル+スキルで、大規模モデル単体に匹敵する性能を確認。
SkillsBench: LLMエージェントにおけるスキル活用の効果測定
- SkillsBench :86タスク・11ドメインから成る新ベンチマークの構築
- 各タスク: スキルなし/厳選スキル/自己生成スキル の3条件で評価
- 7つのエージェント-モデル構成 で合計7,308の実行経路を検証
- Curated Skills (厳選されたスキル):
- 平均パス率を16.2ポイント向上
- ドメインごとに効果のばらつき
- 例) ソフトウェアエンジニアリング :+4.5ポイント
- ヘルスケア :+51.9ポイント
- 84タスク中16タスクでは逆にパフォーマンス低下も観測
- 自己生成スキル :平均で効果なし
- LLMモデル自体によるスキル作成の不安定さを示唆
- Focused Skills (2~3モジュールの絞り込みスキル):
- 包括的なドキュメントよりも高い効果
- 小規模モデル+スキル :
- スキルなしの大規模モデルと同等のパフォーマンスを実現
SkillsBenchの意義と今後の課題
- LLMエージェントの実運用に向けたスキル設計指針 の提供
- スキル導入効果のドメイン依存性 の明示
- 自己生成スキルの限界、今後の自動スキル生成手法の課題提起
- ベンチマークの標準化 による、今後のスキル研究の基盤整備