概要
LLMによるコード生成の精度向上を、外部評価者や強化学習なしで実現する「Simple Self-Distillation(SSD)」手法を紹介。 Qwen3-30B-Instructモデルで有効性を検証し、特に難問で大幅な精度向上を達成。 QwenやLlamaの複数モデル規模でもSSDの汎用性を確認。 SSDの効果の理由として、トークン分布の文脈依存的な再構成を説明。 LLMコード生成向上のための新たな後処理手法としてSSDを提案。
LLMによる自己蒸留(SSD)によるコード生成精度向上
- 外部評価者 や 教師モデル、 強化学習 を用いずに、LLM自身の出力のみで学習を進める手法「Simple Self-Distillation(SSD)」の提案
- モデル出力サンプル を特定の 温度・トランケーション設定 で取得し、そのまま 通常の教師ありファインチューニング に利用する手順
- Qwen3-30B-Instructモデルでの実験により、 LiveCodeBench v6 でのpass@1スコアが 42.4%から55.3% へと大幅に向上
- 難易度の高い問題ほど、SSDによる精度向上が顕著
- QwenとLlamaの 4B, 8B, 30B 規模モデルや、 Instruct/Thinking バリアントにも効果を確認
- 精度と探索性のトレードオフ (precision-exploration conflict)をSSDが解消し、
- 精度が重要な文脈では ノイズ(distractor tails)を抑制
- 探索が重要な文脈では 多様性を維持
- SSDは ポストトレーニング としてLLMコード生成精度を向上させる新たなアプローチを提供
SSDの理論的背景と適用例
- LLMの デコーディング時 に発生する精度と探索性の対立を分析
- SSDにより、 トークン分布 が文脈依存で最適化される現象を観察
- サンプル選択時の 温度・トランケーション設定 が重要なパラメータ
- QwenやLlamaなど、異なるモデル構造・規模間でも再現性を持って効果が発揮
- コード生成以外の応用可能性についても今後の課題として言及
今後の展望と意義
- SSD は既存のLLM学習フローに 容易に追加可能 な後処理手法
- 外部データや追加コストを要さず、 モデル自身の出力だけで精度向上
- コード生成タスク以外でも、 自己学習的な改善手法 としての展開が期待
- LLMの 自己最適化能力 を活かす技術として、今後の研究開発の方向性を示唆