概要
- LLM routingは、各クエリに最適なLLMを動的選択する技術
- 従来は完全なクエリ-LLM対応情報が必要な教師あり学習が主流
- 現実では全ての最適対応情報が得られず、クエリも進化
- 本研究は文脈付きバンディット問題としてLLM routingを再定義
- PILOT手法とコスト最適化ポリシーで効率的なモデル選択を実現
LLM routingの課題と新提案
- Large Language Models (LLMs) は自然言語処理を革新
- LLMごとの 能力差・コスト差 が実運用の障壁
- LLM routingは クエリごとに最適なLLMを選択 する技術
- 従来手法は 教師あり学習 で全てのクエリ-LLM最適対応を前提
- 現実では 完全な対応マッピングが得られない 課題
- ユーザーのクエリも 進化・多様化 する現状
- 本研究は 文脈付きバンディット問題 としてLLM routingを再定義
- 全LLMでの推論不要 な適応的意思決定を実現
提案手法:PILOTとコスト最適化
- クエリとLLMの 埋め込み空間 を新たに設計
- Affinity(親和性) に基づきクエリ・LLM埋め込みを整列
- オフラインの人間評価データ で初期学習
- オンラインのバンディットフィードバック で継続的に精緻化
- Preference-prior Informed Linucb fOr adaptive rouTing (PILOT)
- LinUCBの拡張手法として実装
- 適応的なLLM選択 を実現
- ユーザーごとの 予算制約 に対応
- マルチチョイスナップサック問題 としてコストポリシーを設計
- リソース効率 を意識したルーティングが可能
まとめ・応用可能性
- PILOTは 教師あり学習型ルーティング よりも柔軟・効率的
- コストと精度のバランス を動的に最適化
- 現実の多様な運用シナリオ に適応可能
- 本研究は EMNLP 2025 findings として採択
- 機械学習・AIサービス運用における LLM活用最適化 への貢献