世界を動かす技術を、日本語で。

拡散言語モデルは優れたデータ学習者です

概要

  • Diffusion Language Models(DLMs) は、並列デコーディング設計により高速なトークン生成が可能。
  • DLMsは 同規模のAutoregressive(AR)モデル よりも、限られたデータ予算下で優れた学習能力を示す。
  • 実験では、 DLMsのデータ活用効率がARモデルの3倍以上 であることを確認。
  • データ制約下 ではDLMsがARモデルを明確に上回る「クロスオーバーポイント」が存在。
  • 今後の研究指針 として、他研究の手法的問題点も詳細に検証。

Diffusion Language Models(DLMs)の高速性と性能

  • Diffusion Language Models(DLMs) は並列デコーディング設計により、1秒間に数千トークンの生成が可能。
  • 低レイテンシ が求められる実用アプリケーションに最適。
  • 最新のDLMs は、性能面でもAutoregressive(AR)モデルと同等の成果を示す事例が増加。
  • 高速性だけでなく、データ学習能力の高さ が新たな注目点。

DLMsの「Super Data Learner」としての特性

  • 同一のユニークな事前学習トークン数 で比較した場合、DLMsは同規模のARモデルを一貫して上回る性能。
  • 追加のFLOPs(計算量) と引き換えに、より効率的な学習を実現。
  • ARモデルのデータポテンシャルの3倍以上 の学習効率。
  • 事前学習データの枯渇が進む現状 で、DLMsのデータ活用力が一層価値を増す。
  • ARモデルは4エポック程度でデータ再利用効果が頭打ち となる傾向。

実験結果とクロスオーバーポイント

  • 96Bトークン固定予算 で、ユニークトークン数を0.5B~96Bまで変化させて検証。
  • DLMsはデータ繰り返し学習による性能劣化が極めて小さい
  • DLMsは0.5Bユニークトークン(未収束)学習時点で、ARモデル1.5Bユニークトークン(収束済)と同等性能
  • モデルサイズを8Bに拡大することで、DLMsのデータポテンシャルがさらに拡張
  • ARモデルはデータ制約下でモデルサイズ拡大の恩恵が少ない

データ制約・計算制約下での比較

  • 計算制約(データ豊富)下ではARモデルが優位、トレーニング終了時点でより良い性能。
  • データ制約(計算資源が豊富でデータが希少)下ではDLMsが明確にARモデルを上回る
  • データ制約が現実的な今後の環境 において、DLMsの優位性が際立つ。

今後の研究と他研究への批判

  • 同時期の他研究[1] も類似のテーマを扱うが、手法上の問題点を指摘。
  • より堅牢な研究手法の確立 を目指し、詳細な批判と今後の指針を提示予定。

この研究は、 Diffusion Language Models(DLMs) が今後の大規模言語モデル開発において、 データ効率性・学習能力の両面で大きな可能性 を持つことを示唆。データ供給がボトルネックとなる時代において、 DLMsの活用が主流となる可能性 を強調。

Hackerたちの意見

推論中、16から4096トークンのシーケンスを生成することは、ARベースラインと比較して16倍から4700倍のFLOPsの増加を引き起こします。FLOPsの増加がこんなに幅広い理由が気になりますね。素直に考えれば、トークンの数に応じてFLOPsが線形に増加すると思ってました。でも、逆に言えば、拡散モデルは自己回帰的じゃないから、名前の通りって感じで納得もいきます。

自己回帰モデルは、自己注意ブロック内のほとんどのFLOPsを排除するためにキー・バリュー(KV)キャッシングを使えると思います。拡散モデルでは因果モデルじゃないからKVキャッシングは使えないけど、彼らはこれがより良い推論につながると信じているので、勝ちだと言ってるんでしょうね。

これは面白いけど、いくつかの主張はもっと情報がないと成り立たない気がします。「ダウンストリームタスク」や「分布内/外」といった用語は、文献でいろんな意味で使われることが多くて、文脈から何を指しているのか分かりにくいです。読者としては、トレーニングデータが何か分からないと、何が分布内かも分からないですから。だから、ダウンストリームタスクが何かも分からない。特に、これが気になりますね。> この現象は、ドメイン内とドメイン外のトレーニングデータの両方に持続します。トレーニングデータが「ドメイン外」であるとはどういうことですか?ドメインはあなたの関数への有効な入力のことです。これは分布を指しているのでしょうか?それでも少し混乱しますね。なぜなら、トレーニングデータとバリデーションデータの両方が分布内にあるように聞こえるからです。> バリデーションロスはARとDLMの良い指標ですか?学術的な場面で、誰かが本気で「はい」と思っているのでしょうか?もし本当に人々がロスを異なるアーキテクチャを比較する強い指標として使えると信じているなら、私は非常に懸念します。これらのロスは、私たちが測りたいものを測っているわけではなく、それらの代理です。アーキテクチャ自体がそのロスの景観を形成する大きな部分です。もし指標が代理でなければ、この比較は良いものになるでしょうが、代理である限り、何が発散しているのかを知らない限り信頼できません。これらはすべて良いことですが、分野として進むためには、私たちが知らないことを忘れないようにする必要があります。全体的に、「スーパー・データ・ラーナー」が何を意味するのか、まだよく分かりません。これはパラメータごとの情報で数えられているのでしょうか?因果的な注意と拡散の自由形式の注意についての良い議論があると思いますが、ここでの結論にはいくつかの過剰な部分もあると思います。下三角行列はフルランクであり、ここには高い表現力がありますが、自由形式の方がもっとあるのは正しいです(トランスフォーマーのFFN層での置換や解きほぐしを含めても)。この部分をもっと強調して、説明にもっと時間をかければ、もっと強い主張ができると思います。でも、これが拡散とトランスフォーマーの違いなのか、三角注意とフルランク注意の違いなのかを判断するためには、追加の分析が必要だと思います。数学的な観点からは、2つ目の質問はもっと簡単に答えられますが、これらをトレーニングする大きな問題があるからです。自由形式の行列をトレーニングする問題は、それらが…まあ…自由形式だからです。正規化フローの文献には、表現力とトレーニング/計算効率の類似の問題を扱った良い議論があります。この研究は、異なるアーキテクチャの表現力についての大きな議論を開く可能性があります。これは、私の意見では、最近話し合うべき非常に重要なトピックです。まあ、私は神経アーキテクチャに関わっているので、偏見がありますけどね。ちょっと楽しみで ;)

これが拡散モデルが自己回帰モデルよりも記憶容量が少ないせいだとしたら、どれくらいの影響があるんだろう。自己回帰モデルは、同じ数のトレーニングトークンで常により良いロスを示しています。結論には共感する部分が多いけど、1Bモデルで10Bデータセットを使ったトレーニングのエポック数がもっと見たかったです。あのモデルはエポックごとに改善を示していたので。

これが拡散モデルが自己回帰モデルよりも記憶容量が少ないせいだとしたら、どれくらいの影響があるんだろう。拡散は自己回帰モデルよりも計算リソースを多く必要とし、計算の余剰はシーケンスの長さに比例します。時間拡張RNNや画像認識における適応計算は、同じ重みでより多くを計算し、より良い結果を得ることができることを示唆しています。これは、少なくともTS研究の一つの欠陥を示唆していると思います - DLMとARを計算で一致させたのではなく、重みだけで一致させたのを見ました。

あのモデルはエポックごとに改善を示していたので。両方とも改善を示していましたね。もっと見たいという点では同意しますが、もっとやっても議論が大きく変わるとは思えません(指標が単純じゃないというのが大きなテーマですから)。特に、96Bトークンの実験が示しているように。実際、結果が非常に似ていて、違いを見つけるためにGIMPで開かなければならなかったほどです。実際、間違いがなかったとは思えません。違いはありますが、非常に小さいです。ARモデルではスケールの関係で判断が難しいですが、拡散モデルでは、最後の凹みが変わる直前に少し盛り上がりが見えます。ARモデルの早い段階にも違いを示すための小さな盛り上がりがありますが、エンベロープがほぼ同じなのは…疑わしいです。悪意があるとは言いませんが、たとえ間違いでも、こういうことは簡単に起こり得るので、一般的です。間違いがあるとは思えませんが、もう少し考える価値があります。とはいえ、資金は有限で、これらはかなり計算負荷が高いです。著者は研究フェローのようで、大手テック企業に支援されているとは思えません。

自己回帰モデルは、同じ数のトレーニングトークンで常により良いロスを示しています。双方向トランスフォーマー(非自己回帰)は、同じ数のトレーニングトークンで自己回帰モデルよりもロスが少ないと思っていました。

結果はおそらく、ARベースラインがダメだということを示しているだけでしょう。

もし、因果注意を繰り返すだけで双方向の注意をモデル化できるって言ったらどう思う?しかも、それでも十分速いんだ。ヒント:それは「思考の連鎖」って呼ばれてる。俺は、反復自己回帰がもっと速くて並列処理もしやすいし、適切なプロンプト技術を使えば同じくらい効果的だから、拡散モデルはそろそろやめるべきだと思ってる。(もちろん、CoTを拡散の一形態と見なすなら話は別だけど、実際そうなんだよね。)

CoTがどうやって拡散の一形態なのか、または双方向の注意をモデル化してるのか説明してくれる?

「拡散モデルをやめるべき」ってのは、ちょっと早計かもしれないと思う。ミンスキーとパパートは、ニューラルネットワークがXORを学べないって言ったことでAIを数十年も後退させたんだ。もちろん、HNのコメントが同じ影響を持つことはないけど、俺の言いたいことは、物事を早急に切り捨てるのは簡単だってこと。

思考の連鎖は拡散の一形態じゃないよ。拡散モデルには明らかに有用な特性があって、さらなる研究に値するから、「やめるべき」じゃない。