世界を動かす技術を、日本語で。

シンプルな自己蒸留がコード生成を改善する

概要

LLMによるコード生成の精度向上を、外部評価者や強化学習なしで実現する「Simple Self-Distillation(SSD)」手法を紹介。 Qwen3-30B-Instructモデルで有効性を検証し、特に難問で大幅な精度向上を達成。 QwenやLlamaの複数モデル規模でもSSDの汎用性を確認。 SSDの効果の理由として、トークン分布の文脈依存的な再構成を説明。 LLMコード生成向上のための新たな後処理手法としてSSDを提案。

LLMによる自己蒸留(SSD)によるコード生成精度向上

  • 外部評価者教師モデル強化学習 を用いずに、LLM自身の出力のみで学習を進める手法「Simple Self-Distillation(SSD)」の提案
  • モデル出力サンプル を特定の 温度・トランケーション設定 で取得し、そのまま 通常の教師ありファインチューニング に利用する手順
  • Qwen3-30B-Instructモデルでの実験により、 LiveCodeBench v6 でのpass@1スコアが 42.4%から55.3% へと大幅に向上
  • 難易度の高い問題ほど、SSDによる精度向上が顕著
  • QwenとLlamaの 4B, 8B, 30B 規模モデルや、 Instruct/Thinking バリアントにも効果を確認
  • 精度と探索性のトレードオフ (precision-exploration conflict)をSSDが解消し、
    • 精度が重要な文脈では ノイズ(distractor tails)を抑制
    • 探索が重要な文脈では 多様性を維持
  • SSDは ポストトレーニング としてLLMコード生成精度を向上させる新たなアプローチを提供

SSDの理論的背景と適用例

  • LLMの デコーディング時 に発生する精度と探索性の対立を分析
  • SSDにより、 トークン分布 が文脈依存で最適化される現象を観察
  • サンプル選択時の 温度・トランケーション設定 が重要なパラメータ
  • QwenやLlamaなど、異なるモデル構造・規模間でも再現性を持って効果が発揮
  • コード生成以外の応用可能性についても今後の課題として言及

今後の展望と意義

  • SSD は既存のLLM学習フローに 容易に追加可能 な後処理手法
  • 外部データや追加コストを要さず、 モデル自身の出力だけで精度向上
  • コード生成タスク以外でも、 自己学習的な改善手法 としての展開が期待
  • LLMの 自己最適化能力 を活かす技術として、今後の研究開発の方向性を示唆

Hackerたちの意見

まだ論文は読んでないけど、機械学習の多くのブレークスルーが見た目にはシンプルなのが面白いよね。トランスフォーマーもそうだし。もしかしたら後知恵バイアスかも。もっと深い理論があれば、何かを「デザイン」するのに役立つのにね。

こういう発見は多いよね。実際、シンプルさは正しさの象徴で、複雑さは私たちの理解が不完全で、まだ正しいモデルに向かってつまずいているサインなんだ。いつもそうとは限らないけど、しばしばそうだよ。プログラミングキャリアの中での良い指針になってる。

すごいね、近い将来、もっと良いコーディングモデルに繋がると思う。これらのニューラルネットワークの内部で何が起こっているのかを理解するためのツールをもっと開発する必要があるよ。高次元空間での作業は得意じゃないし、基本的には適当にやってみて、うまくいくかどうかを見てる感じ。

これがどう機能するのか、本当に興味深いよね。基本的にはコンテキストを意識したデコーディングなんだ。論文からの引用: 「コードは、いくつかの継続が本当に妥当で、異なる解法アプローチに対応する可能性があるフォーク位置と、構文と意味がほとんど曖昧さを残さないロック位置を交互に織り交ぜていますが、低確率の気を散らす尾がまだ残っています… したがって、最良のグローバルデコーディング設定は必然的に妥協を必要とします。この緊張を精度と探索の対立と呼びます。言い換えれば、私たちと同じように、モデルも「フォーク」モードでの「探索」から「ロック」モードでの「精度」にシフトする必要があるんだ(創造的な解決策を生み出すための発散的思考から、文法的に正しいコードを生成することへ)。この論文が示しているのは、彼らのシンプルな手法(SSD)がロック位置とフォーク位置の両方で最適なトークンのランキングを改善できるということ。つまり、モデルは探索すべきときに探索し、必要なときには精度を保つ可能性が高くなるってこと。LLMの新たな特性をまだ学んでいるのが大好きだ!

これ、コードだけじゃなくて、生成されるすべてのコンテンツにも当てはまるみたいだね?コードの場合はもっと明確だけど、フォーク/ロックのメカニズムは他の問題領域にも効くんだ。

これの内部の仕組みはあんまり理解してないけど、最初に思ったのは、リントやテストと組み合わせたらどうかなってこと。そうすれば、すべてのフォークを生成して、文法的に正しいものだけを残せるんじゃない?

LLMの新たな特性をまだ学んでいるのが好き!正直言って、これは(私の意見だけど)一番驚くべきことじゃない。LLM(特にその新たな特性)はまだブラックボックスだし。人間の脳を何千年も研究してきたけど、人間の働き方を予測するのはほとんど進歩してない(例えば自由意志がどの程度存在するかとか)。交通の新たな特性についても、研究者が運転手として何をするかを知っていても、理解されていなかったり、ちゃんと注目されていなかったりした。今、フロントページにあるこの投稿:> 14. Claude Codeが23年間隠されていたLinuxの脆弱性を発見した (mtlynch.io) LLMについて新しいことを学んでいるのは確かにクールだけど、まだ学んでいるのは全然驚くべきことじゃないよね。(ごめん、ちょっと愚痴っちゃった。もっと世界のことを知りたいけど、現実的じゃないのは分かってる。)

これらのシステムの頭が混乱する例をもう一つ:小さなモデルを微調整してたんだけど、データフィールドを取ってそれを文にする作業をしてた。モード崩壊にぶつかって(AIが簡略化しすぎていつも同じことを出力する状態)、各行のフィールドの順番をランダムにしたら、うまくいった?!トレーニング中にね。今は推論時にも同じことをやるべきかなって考えてる。

ジョン・クリースの「オープンモード」と「クローズドモード」みたいだね - https://www.youtube.com/watch?v=Pb5oIIPO62g

この論文が示しているのは、彼らのシンプルな技術(SSD)「シンプル・セルフ・ディスティレーション」だ。ソリッドステートドライブの略語があったけど、その技術については知らないけど、名前は確かに…シンプル?

TurboQuantとGemma 4の後、ローカルマシンでGemmaを50トークン/秒で動かしている以下の動画を見つけたよ。[0] これ、Sonnet 3xや4レベルの能力に見える。Gemma 4はUI付きのPythonプロジェクトをセットアップして、uvを使ってPythonライブラリをインストールするんだ。このシンプルな自己蒸留を加えれば、2028年にはもっと安価なコーディングモデルの提供者が出てきて、使用制限もかなり緩くなると思う。そしてパワーユーザーはほとんど自分のモデルを運用してるだろうね。自然言語からコードへの「非決定論的トランスパイラ」としてこれらのモデルを使っている人(自分でコードを書ける経験豊富なエンジニア)は、AI提供者にお金を払わないだろうね。[0] https://www.youtube.com/watch?v=-_hC-C_Drcw

自分が使ってる言語の最新バージョンだけでモデルをトレーニングしたら、どれだけ小さくて速くなるのかいつも考えちゃう。具体的には、PHP、SQL、HTML、JS、CSS、オランダ語、英語、あと自分の好きなOS(MacOS)のツールもね。今は、釘に家を叩きつけてる感じがする。

私たちの手法、シンプル自己蒸留(SSD)は、恥ずかしいほどシンプルです:指定された温度と切り捨てでベースモデルから解決策をサンプリングし、その生の未検証サンプルで標準のクロスエントロピー損失を使ってファインチューニングします。つまり、ベースモデルに答えを促して、その答えを使って再度プロンプトを実行するってこと?

いや、実際には「答え」はないよ。彼らは自己蒸留を使って、モデルの出力分布を同じモデルのそれにシフトさせるけど、サンプリング時に異なる温度/切り捨て設定で実行するんだ。これによって、ロジット尾の切り捨て動作がモデル自体に「折りたたまれる」感じになる。見たことがある「モデル制御サンプリング設定」とは全く違うわけじゃないけど、実行方法が違うんだ。

誰か、友達のウェブ開発者にこれを簡単に説明してくれない?要約を読んだけど、あんまり理解できなかった。

シンギュラリティの可能性が上がったね。

https://news.ycombinator.com/item?id=47107974

これに集中すべきじゃないかもしれないけど、この論文がアップルから出たことに驚いた。アップルのAI/LLM研究はかなり遅れてると思ってたからさ。研究は「潮が満ちればすべての船が浮かぶ」って言うけど、アップルの進捗についてはネガティブなニュースをたくさん見てたし、ハッカーニュースのトップページにアップルの研究論文が載るのはあまり見たことない。アップルやAI研究に詳しい人がコメントしてくれたら嬉しいな。

アップルはAI研究でハッカーニュースのトップページに頻繁に登場してるよ。[0][1] 特に小型のデバイス上でのモデルに関する研究が多いね。

もう一つ使えるかもしれないトリックは、長いトークン予算がモデルのパフォーマンスを向上させるという観察に基づいて、たくさん考える予算を使って解決策を生成し、その後LLMにそのトレースをもっとコンパクトにするように頼む、っていう方法。で、その後SFTを行うって感じかな。ただ、この論文の結果は実際に適用するのが難しいか、他の技術と比べて特に優れているわけではない気がする。