概要
- Orthrusは 並列トークン生成 と 損失なしの精度 を両立する新型LLMフレームワーク
- Qwen3バックボーンを採用し、 最大7.8倍の生成高速化 を実現
- 余分なメモリ消費ゼロ で既存モデルと同一の予測分布を保証
- パラメータ効率を維持しつつ 推論速度と精度 を両立
- 既存手法より 高い受理率・高速推論 を実現
Orthrus: メモリ効率型並列トークン生成フレームワーク
- Orthrusは autoregressive LLMの忠実な生成 と diffusionモデルの高速並列生成 を統合したデュアルアーキテクチャ
- Qwen3シリーズ をベースモデルとして利用し、 厳密な損失なし生成 を保証
- サポートモデル例
- Orthrus-Qwen3-1.7B(4.25倍高速化)
- Orthrus-Qwen3-4B(5.20倍高速化)
- Orthrus-Qwen3-8B(5.36倍高速化)
- 公式実装・モデルチェックポイントは HuggingFace で配布
インストール手順
- uv による高速依存解決を推奨
uv pip install -e .uv pip install ninja packaginguv pip install flash-attn --no-build-isolation(もしくはpip install "flash-attn-4[cu13]")
クイックスタート例
- Pythonでの基本利用例
AutoModelForCausalLMとAutoTokenizerを利用attn_implementation="flash_attention_2"を指定(対応環境ならflash_attention_4も可)use_diffusion_mode=Trueで並列生成を有効化- トークン生成ストリーミングもサポート
Orthrusの主な利点
- 推論高速化 :従来の逐次デコードのボトルネックを解消し、最大7.8倍の速度向上
- 厳密な損失なし生成 :モデル内で厳密な合意機構を持ち、ベースモデルと全く同一の分布で出力
- 余分なメモリオーバーヘッドなし :デュアルビューが同一の高精度KVキャッシュを共有し、O(1)のメモリ増加のみ
- パラメータ効率 :並列生成能力は全体の16%パラメータ微調整で注入、ベースLLMは完全凍結
- Speculative Decodingとの比較 :EAGLE-3やDFlashに対して、KVキャッシュ共有により冗長メモリ回避・高受理率・高速推論を実現
SOTA拡散モデルとの比較
- 従来のdiffusion LLM(dLLM)は 並列生成可能 だが、 条件ドリフトや精度劣化 が顕著
- Orthrusは 並列生成と逐次制約を分離 し、 高忠実度・高精度 を両立
- MATH-500ベンチマークで Qwen3-8B比約6倍高速化、Fast-dLLM-v2等の精度劣化なし
今後の展望
- vLLM ・ SGLang とのネイティブ統合を近日公開予定
論文引用情報
-
Orthrus関連研究を利用する場合は、以下の論文を引用
@misc{vannguyen2026orthrusmemoryefficientparalleltoken, title={Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion}, author={Chien Van Nguyen and Chaitra Hegde and Van Cuong Pham and Ryan A. Rossi and Franck Dernoncourt and Thien Huu Nguyen}, year={2026}, eprint={2605.12825}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2605.12825}, }