世界を動かす技術を、日本語で。

予算制約下における適応型LLMルーティング

概要

  • LLM routingは、各クエリに最適なLLMを動的選択する技術
  • 従来は完全なクエリ-LLM対応情報が必要な教師あり学習が主流
  • 現実では全ての最適対応情報が得られず、クエリも進化
  • 本研究は文脈付きバンディット問題としてLLM routingを再定義
  • PILOT手法とコスト最適化ポリシーで効率的なモデル選択を実現

LLM routingの課題と新提案

  • Large Language Models (LLMs) は自然言語処理を革新
  • LLMごとの 能力差・コスト差 が実運用の障壁
  • LLM routingは クエリごとに最適なLLMを選択 する技術
  • 従来手法は 教師あり学習 で全てのクエリ-LLM最適対応を前提
    • 現実では 完全な対応マッピングが得られない 課題
    • ユーザーのクエリも 進化・多様化 する現状
  • 本研究は 文脈付きバンディット問題 としてLLM routingを再定義
    • 全LLMでの推論不要 な適応的意思決定を実現

提案手法:PILOTとコスト最適化

  • クエリとLLMの 埋め込み空間 を新たに設計
    • Affinity(親和性) に基づきクエリ・LLM埋め込みを整列
    • オフラインの人間評価データ で初期学習
    • オンラインのバンディットフィードバック で継続的に精緻化
  • Preference-prior Informed Linucb fOr adaptive rouTing (PILOT)
    • LinUCBの拡張手法として実装
    • 適応的なLLM選択 を実現
  • ユーザーごとの 予算制約 に対応
    • マルチチョイスナップサック問題 としてコストポリシーを設計
    • リソース効率 を意識したルーティングが可能

まとめ・応用可能性

  • PILOTは 教師あり学習型ルーティング よりも柔軟・効率的
  • コストと精度のバランス を動的に最適化
  • 現実の多様な運用シナリオ に適応可能
  • 本研究は EMNLP 2025 findings として採択
  • 機械学習・AIサービス運用における LLM活用最適化 への貢献

Hackerたちの意見

人間の好みデータが必要な理由ってあるの?LLMは質問の複雑さを理解するのに十分な能力があるから、ルーティング用のデータセットを作れるんじゃないの?

質問の複雑さを理解する能力、つまり知恵。いいえ、LLMにはそれがないよ。僕もそうだし、通常はそれを見つけるために深い穴に飛び込まなきゃいけない。

LLMは概念を持ってないよね。人間のテキストの膨大なデータベースに対してパターンをマッチさせてるだけ。

誰かにサンドイッチを作ってもらうのに、自分の頭の中を読んでほしいって言ってるようなもんだね。

これがLLM研究の最前線なの?そうなると、AGIは当分無理そうだね。正直、未来について少し安心できるかも。追記:実際にLLMからAGIが出るとは思ってなかったよ。あれは皮肉だった。LLMの性能向上が頭打ちになってるのは注目すべきだと思う。

僕もこれについてはよくわからないな。2023年にはこれが最前線になると思ってたのに。

まず、AGIには絶対に到達しないと思う。大きな進展はまだ見られると思うけど、AGIは曖昧で動き続ける目標だから、合意には至らないよ。でも、この論文が君の考えにどう影響を与えるの?予算についてや、異なるLLMが異なるコスト構造を持っていることを認識することについての話だよ。絶対的にLLMの性能を向上させようとしているわけじゃない。

「AGI」の瞬間は来ないんじゃないかと思い始めてる。時間をかけて徐々に賢い機械を作っていくうちに、気づいたら「AGI」が存在するって感じになるかも。90年代のビデオ通話みたいに、みんな欲しがってたけど、今はみんな嫌がってる、笑。

LLMはAGIへの道を歩んでるわけじゃないけど、それでも危険はたくさんあるよね。

それに、LLMはどうやら停滞してるみたい。今年の初めには、大手企業が毎週のように目に見える改善を発表してたのに。数週間がAIの世界では「永遠」だって冗談を言ってたけど、今はどれくらいの時間が経ってるんだろう?

arxivに載ってるからって、特別な意味があるわけじゃないよ。arxivは基本的に学術的なフォーマットのブログみたいなもので、アジアや南アジアの学術コミュニティでは人気なんだ。今はこれを使って評判を洗浄できるけど、これは暗号の世界での「ホワイトペーパー」が資本を生むのと同じようなもので、みんなが気づくにつれてその力は弱まっていくよ。

富士通リサーチのランダムな論文が、何かの最前線を主張してるの?

GPT-4が100万トークンあたり24.7ドル、Mixtralが0.24ドルって、100倍のコスト差だね!ルーティングが20%の確率で間違えても、経済的には成り立つよ。でも、実際の問題は「性能」をどう測るかだね。ユーザーの満足度が技術的な指標と必ずしも一致するわけじゃないし。

苦情の数 / 百万トークンってどれくらい?

GPT-4は百万トークンあたり24.7ドル。技術的には正しいけど、OpenAIがもっと安くて良いモデルをたくさん提供してるのに、なんで使いたいと思うの?

自分の独自のルーティングアルゴリズムを使えば、コストの1%でGPT-4よりも良いスコアが簡単に取れるよ。全てのリクエストをGemini 2.5 Flashにルーティングするんだ。それをGASP(Gemini Always, Save Pennies)って呼んでる。

PPT(トークンあたりの価格)だけじゃコストを計算するには不十分だよ。平均的なインタラクションあたりのトークン数(TPI)も知る必要がある。これらを掛け合わせてコストの見積もりが出るんだ。0.01xのPPTは、100xのTPIで消えちゃうよ。

「パフォーマンス」をどう測るかって? 評価を通じて測るのが一番いいって聞いたよ。

ヘッドラインの枠組みが面白いね。確か、モデルの性能を7%向上させるために4倍の計算リソースを使うのは、これまで何度も成功してきた手法だと思う。GPT-4の性能の101%(どんなコストでも)を改善されたルーティングアルゴリズムが達成することを期待してるよ。

(提出されたタイトルは「1/4のコストでGPT-4の93%のパフォーマンス:弱いバンディットフィードバックを使ったLLMルーティング」でした)

文脈バンディットを使ってるなんてすごいね、しかも名前が「Preference-prior Informed Linucb fOr adaptive rouTing (PILOT)」って。もっと分かりやすい名前の「Preference-prior Informed Linucb For Adaptive Routing (PILFAR)」にしなかったのかな。

それ、結構面白いね。パクっちゃうかも。

このアイデアを「Preference-prior Informed Linucb fOr adaptive rouTing(PILOT)」として具現化してるんだ。LinUCBの新しい拡張だよ。学者たちは自分の作ったものに名前をつけるのが本当にクリエイティブだよね。

僕のLoRAの代替品をBEMOって名付けようと思ったけど、ちょっと可愛すぎる感じがしたから、結局BEM(Bolt-on Expert Modules)にしたよ。

ルーターに関する論文が今すごく増えてるね。僕は、適応ルーティングを提供するためにリトリーバルに結びつけた勾配ブーストルーターをいじってるんだ。これらのルーターの真実は、フルに効果を得るためには自分のワークロードに合わせて調整しなきゃいけないってこと。そうしないと、テストではすごく良くても、実際の運用では全然ダメなんだ。だから、僕のにはリトリーバルの要素を追加したんだ。そうしないと、トップラインのスライスと現実が全然違っちゃうからね。

前回のNeurIPSからの情報だよ。 https://automix-llm.github.io/automix/

ちょっと気になるんだけど、a) 誰かがLLM APIに焦点を当てた本格的なコスト削減の取り組みを経験したことがあるか、b) さまざまなパフォーマンススケールのLLMにおける価格弾力性についての研究があったかどうか。今のところ、私の経験では、ほとんどの人やアプリケーションにとってコストを気にするのはまだ早すぎるって感じ。せいぜい、AIがクラウドコストの10%を占めるくらいかな。だけど、他の人たちの経験も知りたいな。

どの文脈で?真剣なエンジニアたちはまだ探索段階にいるから、コストはあまり気にしてないよ。出荷速度が上がる限り、コストは問題にならない。再販用にトークンを再パッケージするのは別の話で、ここでは経験がないな。

LLMはAI関連のコストの中で一番高いわけじゃないから、基本的にLLMの最適化にはあまり気を使ってないよ。もちろん、GPT4.5みたいな超高価なものは使わないしね。でも、GPT4.1とかは十分安いから、ミニモデルにはあまりこだわらない。音声からテキストへの変換とかはまだずっと高いし、そこではコスト最適化に注力してるよ。大規模な画像生成のユースケースはまだないけどね。

あなたのアプリケーションがそれほど trivial でない限り、パフォーマンスの代理として使われるランダムな指標よりも、一貫した動作を求めるのが普通だよ。ルーティングは解決策じゃないね。