概要
Diffusion Language Models (DLMs) は、従来の Autoregressive (AR) LMs に代わる新しい生成方式。 CDLM はDLMの効率化を実現し、 高速推論・低レイテンシ を達成。 並列生成 や ブロック単位のKVキャッシュ 活用が特徴。 精度維持しつつステップ数削減 を可能に。 数学・コーディングタスク で高いスループットと実用性を示す。
Diffusion Language Models (DLMs)の概要
- DLMs は、部分的にマスクされたシーケンスを 複数回のサンプリングで段階的に復元 する言語モデル
- 1トークンずつ生成するAR方式と異なり、 複数トークンを同時に確定 できる並列生成手法
- 双方向コンテキスト の活用により、 テキストインフィリングやリファインメント など新しい能力を実現
- 推論の可視化 :CDLM、従来DLM、ARモデルの挙動比較
DLMの課題とCDLMのアプローチ
- 標準DLMの非効率性
- KVキャッシュ非対応 :全双方向アテンションにより、各ステップで全文脈を再計算する必要
- 高リファインメントステップ数 :高品質生成には多くのステップが必要、ステップ削減は品質低下を招く
- CDLMの解決策
- ブロック単位のKVキャッシュ を可能にし、推論コストを大幅削減
- 少ないステップでも高品質生成 を保つための後処理学習レシピ
DLM推論とCDLMの学習方法
- DLM推論 :完全マスク状態から始め、各ステップで部分的にトークンを確定
- 各ステップで 現在のノイズ付きシーケンス と プロンプト から クリーンなシーケンス分布 を予測
- CDLM学習プロセス
- トラジェクトリ収集
- ドメイン固有プロンプトでDLM推論を実行し、 トークンごとのデコード履歴 ・ 隠れ状態 ・ 正解テキスト を記録
- 例:生成長L_g=256、ブロックサイズB=32、全N=L_gステップ(各ステップで1トークン確定)
- ブロック因果生徒モデルとアテンションマスク
- トラジェクトリ抽出時は全双方向アテンション、CDLM学習時は ブロック単位因果マスク を適用
- プロンプト、確定済みブロック、現在のブロックにのみアテンション
- 正確なブロック単位KVキャッシュ を実現
- 学習目的(損失関数)
- 蒸留損失 :新たにアンマスクされた位置で、教師DLMの分布に生徒を一致させる
- 一貫性損失 :同一ブロック内でマスク状態が続く位置に対し、途中状態とブロック完了状態の生徒予測を整合
- 補助DLMマスク復元損失 :ランダムにマスクした正解テキストで通常のマスク復元学習
- 推論時の動作
- ブロック単位のAR方式 でデコード、プロンプトと確定済みブロックのKVキャッシュを再利用
- 各ブロック内で 信頼度閾値による並列確定 ・ 終了トークンで早期停止
- 追加ハイパーパラメータ不要 な堅牢なデフォルト推論パイプライン
- トラジェクトリ収集
CDLM–Dreamの性能評価
- 大幅なステップ削減 :CDLM–Dreamは、ベンチマークで約4.1倍~7.7倍のリファインメントステップ削減を達成
- レイテンシ大幅短縮 :GSM8K-CoTで最大11.2倍、MBPP-Instructで14.5倍のレイテンシ改善
- 高スループット :多くのタスクで Tokens Per Second が最高値
- 品質維持 :短縮したステップ数でも、パス率や精度がほぼ維持
- ナイーブなステップ削減との比較
- 単純なステップ数削減は精度大幅低下
- CDLMは同等ステップ数でも精度維持し、キャッシュ活用でレイテンシ半減
システム・ハードウェア観点での分析
- AI(Arithmetic Intensity)比較
- ARデコーディング :小バッチでメモリボトルネック、バッチ増加でAI上昇
- 従来DLM :全ステップで全シーケンス処理、計算負荷が高い
- CDLM(ブロックDLM) :ARより高AI、従来DLMより低AIの中間領域
- 小バッチ環境で効率的 な並列化とメモリアクセスのバランス
考察・結論
- 表現力と効率性の両立
- 全双方向アテンションは推論コスト高だが、CDLMは ブロック内双方向性 と KVキャッシュ を両立
- ローカルなリファインメント能力 (インフィリング等)を維持
- スケーラビリティ
- CDLMは 任意のブロック拡散モデル に後付け可能
- より強力なDLM教師からのトラジェクトリ収集で今後の発展に期待
- まとめ
- CDLMは、DLMの高速化・効率化を実現するトレーニング手法
- ブロック内一貫性の強制 と ブロック因果生徒の微調整 で、推論ステップ削減・精度維持・高スループットを達成
- 数学・コーディングタスク での実証的な有効性
参考文献
- [1] Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models
- [2] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
- [3] Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding