コンテキスト: フロンティアパフォーマンスを超えるフュージョン
https://news.ycombinator.com/item?id=48525392
そして、こちらに少し良いUIがあります: https://openrouter.ai/fusion
OpenRouterのフュージョンAPIでは、リクエストが複数のモデルに同時にルーティングされ、ジャッジモデルがそれらの回答を最終的なレスポンスにまとめます。これによりパフォーマンスが大幅に向上しますが、時間がかかるというデメリットがあります(少なくとも彼らがテストした1つのベンチマーク、深い研究ベンチマークでは)。彼らは、3つの安価なモデルからなるバジェットプリセットを用意していて(このベンチマークではFableに大体匹敵し、コストは半分)、3つの高価なモデルからなるクオリティプリセットもあります(これはFableを上回りますが、コストはFableの2倍です)。パレートグラフ: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost...
興味深いことに、モデルを自分自身とフュージョンさせることでもパフォーマンスが向上しました(2xOpus4.8はこのベンチマークでFableに大体匹敵しますが、コストはFableの2倍です)。異なるモデルを混ぜることでさらに小さな利得が得られます。主な利得は追加のテスト時間の計算から来ているようです。これについてもっと研究が進むといいですね。特に最近出た安価なモデル(例えば、DSV4を自分自身とフュージョンさせたり、Mimoと組み合わせたり)に焦点を当てて、フュージョン(並行テスト時間計算)を実行することと、推論やターンの増加とのトレードオフがどうなるのか見てみたいです。