2015年、SotAモデルは囲碁のエンジン性能で全ての期待を超えたけど、それがLLMベースのコードエージェントに繋がるまでに約7年かかったんだ(今でもその性能については議論があるし)。これが示してるのは、人間はコンピュータにとって「難しい」問題を理解するのがすごく苦手だってことだと思う。あるいは、タスクを難易度別にグループ化する方法が分からないってことかな(以前「難しい」とされてた分野での成功が、他の似たような難易度の分野でのパフォーマンスに必ずしも繋がるわけじゃない)。これらのモデルがコンテストでどれだけ優れたパフォーマンスを発揮するかは本当に印象的だし、特定の分野での高い可能性を示してるけど、これらのツールの効果をあまり構造化されていない問題空間で測るのは難しいかもしれない。数週間前にしたコメントを引用すると、>「IMOの文章問題は、歴史学のコーパスとはまったく異なる言語空間だという主張が見える気がする」。一つには、英語で表現されていても数学は非常に構造化されているから。用語の定義は完全にあいまいじゃないし、論理的な同語反復はほんの数トークンで表現できるし、などなど。こういうリッチな構造を柔軟なモデルクラスが学べるのは本当にすごいけど、チェスや他の構造化されたゲームで優れているのに近い気がする。歴史的な物語の合成のような曖昧なものとは違って。編集:あ、面白いことに、その引用したコメントは実はあなたへのレスだったんだよね :D