概要
- Artificial Analysis Intelligence Index (AAII)は、LLMの総合能力を評価する代表的なベンチマーク
- オープンウェイトとクローズドソースの 性能ギャップ を時系列で可視化
- コーディング系ベンチマークでの急速な ギャップ縮小 が顕著
- 他の多くのベンチマークでは ギャップがほぼ横ばい、平均5か月差
- 単一指標だけで LLMの能力全体を判断する難しさ を示唆
人工分析インテリジェンス指数におけるオープン・クローズドフロンティアモデルの推移
- AAII は、LLMの全体的な能力を評価するために設計された主要な指標
- プロットは、 オープンウェイトLLMの性能フロンティア と クローズドソースLLMのフロンティア との間にある性能ギャップを示す
- ギャップの定義は、オープンウェイトLLMがある性能水準に到達した時点で、クローズドソースLLMがその水準に到達していたのがどれくらい前かを示す「月数」
- 2024年夏ごろから ギャップが急速に縮小 し始め、直線的な推定では2026年12月3日に 0か月 へ到達する予測
- ただし、この傾向は AAII単一ベンチマーク に基づくもの
18種類のベンチマークによる詳細分析
- Artificial Analysis は、18種類の異なるベンチマークデータセットを公開
- 各データセットごとに、同様のギャップ推移グラフを作成
- 毎月、各データセットのギャップを 箱ひげ図 でプロットし、時系列で推移を可視化
- 全データセットのギャップ平均値を算出し、 回帰直線 を描画
- この平均ギャップは、 期間全体を通じて約5か月 でほぼ横ばい
- コーディング系ベンチマーク では、15か月差から1~2か月差まで急激に縮小
- その他のベンチマークでは、ギャップの縮小は緩やかまたは横ばい
LLM能力評価の難しさと今後の見通し
- 単一ベンチマーク(例:AAII)だけでLLM能力全体を評価するのは 不完全
- 指標の選び方次第で、「オープンソースモデルが年末に追いつく」とも「常に5か月遅れ」とも予測できる
- 特定分野(コーディング等)での急速な進歩が全体像を歪める可能性
- 今後も 多角的な評価指標 が必要
- オープンソースLLMの「シンギュラリティ」は一概に予測できず、安易な楽観や悲観は禁物