世界を動かす技術を、日本語で。

HNに表示: 新しい生成モデルを発明し、ICLRに受理されました

概要

  • Discrete Distribution Networks (DDN) は新しい原理と特徴を持つ生成モデル
  • ICLR 2025 で採択され、コードも公開済み
  • Split-and-Prune 最適化アルゴリズムを提案し、ゼロショット条件付き生成など独自の性質を実現
  • CIFAR-10やFFHQなどで実験し、従来手法と異なる性能を示す
  • 今後の研究や応用分野についても展望あり

Discrete Distribution Networks (DDN) とは

  • DDN は階層的な離散分布を用いてデータ分布を近似する新規生成モデル
  • 各層で複数のサンプルを同時生成し、最もターゲットに近いものを次層へ入力
  • サンプル選択には Split-and-Prune アルゴリズムを活用
  • 層を重ねるごとに生成画像がターゲットに近づく構造
  • 離散分布の階層的出力により、 ゼロショット条件付き生成 や1次元離散潜在表現など独自性を発揮

DDNの主な特徴

  • 複数サンプル同時生成 による分布表現
  • ゼロショット条件付き生成 (Zero-Shot Conditional Generation: ZSCG)を実現
  • ツリー構造 による1次元離散潜在表現
  • エンドツーエンド微分可能性 を保持
  • 既存のDiffusion、GAN、VAE、自己回帰モデルとは根本的に異なるアプローチ

DDNの最適化と実験

  • 最適化アルゴリズムに Split-and-Prune を採用し、勾配降下法単独では困難な問題も解決
  • 2次元確率密度推定のデモGIFでは、 目標分布に合わせてパラメータを継続的に最適化 する様子を可視化
  • 1,000ノードの実験例だけでなく、10,000ノードでの詳細な最適化過程も公開
  • CIFAR-10FFHQ での実験により、他の生成モデルでは難しい特性を示す

DDNの応用例

  • ゼロショット条件付き生成 :CLIPなどブラックボックスモデルを活用したテキスト→画像生成
  • 画像の着色やエッジ→RGB変換 など、条件付き生成タスク
  • 階層的生成過程の可視化 :MNISTなどで各層ごとの生成サンプルをグリッド表示
  • オンラインデモ や動画で最適化プロセスを体験可能

DDNのモデル構造と目的関数

  • モデルは複数の Discrete Distribution Layer (DDL) から構成
    • 各層は前層から選択されたサンプルを入力とし、新たなサンプル群を生成
    • その中から最もターゲットに近いサンプルのみで損失計算を実施
  • Single Shot Generator Paradigm :各層が独立した重みを持つ
  • Recurrence Iteration Paradigm :全層で重みを共有

DDNのユニークな性質

  • モード崩壊が発生しにくい :多様なサンプル生成と再構成性能の高さ
  • 高次元分布に対する表現力 :複雑な分布にも適応可能だが、モデルの複雑さに依存
  • 生成時のメモリ効率 :選択されたサンプルのみ保持し、他は即時破棄

今後の研究と応用展望

  • ハイパーパラメータ調整 や理論解析によるDDNの改良
  • ImageNetレベルの複雑さ へのスケールアップ
  • 画像着色、超解像 など条件が豊富な小規模生成空間への応用
  • 深度推定、オプティカルフロー推定、ポーズ推定 など判別タスクへの応用
  • ロボティクス 分野での拡張(Diffusion PolicyやDecision Diffuserの代替)
    • 単一のフォワードパスで複数サンプル出力
    • 制約付き生成が容易
  • 非生成タスク への応用(クラスタリング、データ圧縮、類似検索)
  • DDNの設計思想を他モデルへ転用 (例:DDCMによる1次元離散潜在構築)
  • 言語モデリング への適用(GPTと組み合わせてバイナリ列を直接モデリング)

よくある質問(FAQ)

  • Q1: GPUメモリ消費は多い?
    • 一般的なGANと比較して僅かに多いが、選択サンプル以外は即時破棄で効率的
    • 生成時も必要なサンプルのみ生成し、余計な計算・メモリ消費なし
  • Q2: モード崩壊は起きる?
    • DDNは多様性を保ちやすく、再構成性能も高い
    • 真の課題はモデル複雑性を超えた高次元分布のカバー

まとめ・所感

  • DDN は従来の生成モデルとは全く異なる原理と構造を持つ
  • ゼロショット条件付き生成階層的離散潜在表現 など、独自の強みを持つ
  • ICLR 2025 採択、今後の発展や応用にも大きな期待
  • DDNの設計思想は他の生成モデルや新たなタスクにも拡張可能性

ICLRレビュアーの声

  • 「この手法は新規性が非常に高く、見逃してはならない」
  • 「既存の生成モデルとは全く異なる新しい方法」
  • 「新たな生成モデリングの方向性を開く優れた論文」

Hackerたちの意見

アルゴリズムの詳細まではよくわからないけど、デモやそのページを見た感じ、これは主に画像関連のタスク用のモデルなのかな?それとも、GPTやClaudeみたいにチャットの会話もできるように訓練できるの?

投稿にはこう書いてあるよ: https://github.com/Discrete-Distribution-Networks/Discrete-D...

うん、全然可能だよ。拡散LLMが動くのと同じように、DDN LLMでも同じことができる。最初の試みとして、DDNとGPTを組み合わせることをやってみたんだ。トークナイザーを排除して、LLMが直接バイナリ文字列をモデル化できるようにするのが目的。各フォワードパスで、モデルは生成の難易度に応じて生成コンテンツのバイト長を適応的に調整するから、推測的サンプリングも自然にサポートしてる。

面白いアーキテクチャだね。デバッグがすごく簡単そうだけど、欠点としては、MoEスタイルのルーターじゃなくてサンプラーを使ってるから、各レイヤーでK-1の計算を実質的に捨てちゃうんだよね。要するに、Mixture-of-Expertsと「x0-target」潜在拡散モデルを組み合わせた感じかな。主な革新は、ルーターじゃなくてガイド付きサンプラーとスプリット&プルーニングオプティマイザーで、訓練がしやすくなってる。

サンプリング確率が1/Kで入力に依存しないから、推論中に各レイヤーでK個の異なる中間出力を計算する必要がないんだ。事前にどの出力を使いたいか決めて、その一つだけを計算すればいいよ。(これは「DDNに関するよくある質問」のQ1に書いてある。)

最先端のモデルと比べてどうなの?スケールするの?

DDNの最初のバージョンは、ほぼ一人で3ヶ月もかからずに開発されたんだ。だから、実験は予備的なもので、結果は最先端からは程遠い。現在の研究の目標はスケールアップだよ。今後の方向性についてのブログもあるから、見てみて: https://github.com/Discrete-Distribution-Networks/Discrete-D...

このモデルを使って物体を検出するように訓練できる?(例えば、写真の中の魚を検出するとか)

DDNは物体検出のための「識別タスク向け生成モデル」パラダイムに非常に適していると思います。DiffusionDetが拡散モデルを検出に応用しているように、DDNも同じ哲学を採用できるはずです。DDNは拡散ベースのアプローチに対していくつかの利点を提供すると思います。

  • 結果を得るために単一のフォワードパスで済むので、反復的なデノイジングが不要。
  • 不確実性推定のために複数のサンプルが必要な場合でも、DDNは一度のフォワードパスで直接複数の出力を生成できます。
  • DDNのゼロショット条件生成機能により、生成中に制約を簡単に課すことができます。
  • DDNはより効率的なエンドツーエンドの最適化をサポートしているので、識別モデルや強化学習との統合により適しています。

超クール!昔、表現学習にたくさん時間を費やして、MNISTの数字のグリッドを見たら懐かしくなったよ :) 本当に面白くて新しいアプローチだね。スケールアップして非画像ドメインに適用したときのパフォーマンスがすごく気になる!あなたの研究をフォローするにはどこが一番いい?

感謝します!今後の作業についてはGitHubとTwitterで更新しますね。 https://github.com/DIYer22 https://x.com/diyerxx

モデルの階層的生成を見るのはすごく面白いね。彼らのGitHubページにはL=4のものがあるよ: https://discrete-distribution-networks.github.io/img/tree-la... 彼らのページに載っているのはL=3だね。

これは素晴らしい図だね。

どうしてベースライン比較なしで受理されたの?VQ-VAEや拡散インペインティングなどと比較すべきだったと思う。

それが新規性だと思います。ここで、レビュアーr4YKの元の言葉を引用したいです:

「多くの高評価の論文は、著者がそれを発表しなかったり、拒否されたりしていなければ、他の誰かによって書かれていたでしょう。しかし、この論文が発表されなければ、このアプローチを考え出す人はおそらくいなかったでしょう。これが本当の出版価値です。」 2015年の元の拡散論文(Sohl-Dickstein)を思い出しますが、これは5年間ほとんど注目されませんでした。もし発表されていなかったら、今の素晴らしい生成モデルは存在していたでしょうか?引用元: https://openreview.net/forum?id=xNsIfzlefG&noteId=Dl4bXmujh1 それに、元の論文の表1でDDNと他のアプローチをVQ-VAEを含めて比較しています。

ICLRでの単独著者の論文を見るのは非常に印象的だね、特に革新的な方法に対して。よくやった!

そんなタイトルを見て期待することはあんまりないけど、ざっと見た感じ、結構良さそうだね。あとはタイムターナーがあれば完璧なんだけど。

かなり興味深いね。数日前に、シンボリック変換行列を使って拡散について調べてたところなんだ。ディープグラフリアクティブシステムを並列化しようとしてたんだけど、みんながその方向に進んでるみたい。次の1、2年で拡散関連のモデルがコード生成を取って代わるのも驚かないよ。