概要
- Google DeepMind が提案した Gemini Diffusion は、従来のGPT型生成モデルとは異なる拡散型テキスト生成モデル
- 拡散モデル の原理をテキスト生成に応用し、マスク率を変化させながら段階的にノイズ除去を実施
- BERT や RoBERTa のようなマスク言語モデルも拡散的生成モデルへ転用可能
- 実験的に RoBERTa を拡散的生成モデルとしてファインチューニングし、整合性のあるテキスト生成を実現
- MLM (Masked Language Modeling)と 拡散モデル の関係性や今後の発展可能性を考察
拡散型言語モデルの基本と発展
- Gemini Diffusion は、従来の GPT 系の1トークンずつ生成とは異なり、 ノイズからブロック単位でテキスト生成 を行う新方式
- 拡散モデルは元々画像生成で普及し、 ノイズ加算→段階的除去 という2段階プロセスを持つ
- 画像の場合: ガウスノイズ を加え、U-Net等で逆方向にノイズ除去
- テキストの場合: マスク を段階的に増やし、逆に除去して元のテキストを再構築
- マスク言語モデル(MLM) は、拡散モデルの特殊ケース(一定マスク率のみ)であり、マスク率を可変にすれば 拡散的生成 が可能
- これにより、BERTやRoBERTaも 段階的生成モデル として機能
Transformerアーキテクチャの歴史と分類
- Transformer は2017年に Encoder-Decoder 構造で登場
- 2018年以降、 Encoderのみ(BERT) ・ Decoderのみ(GPT) に分化
- Encoder系(BERT) :双方向文脈、MLMで訓練、分類や検索タスクに強み
- Decoder系(GPT) :次トークン予測、生成タスクに強み
- BERTは即座に分類タスクで活用されたが、生成力はGPT系列に軍配
- 拡散的生成 の登場で、BERT系も生成タスクに新たな可能性
離散言語拡散モデルの仕組み
- 前方(ノイズ付加)プロセス :段階的にトークンを<MASK>で置換、最終的に全てマスク
- 逆方向(ノイズ除去)プロセス :部分的にマスクされたテキストから元のトークンを予測・復元
- マスク率を段階的に変化 させることで、従来のMLMを拡張
- 各ステップでの損失和を最適化し、 生成能力 を獲得
RoBERTa拡散モデルの実装例
- HuggingFace Transformers を用い、RoBERTaをWikiTextデータセットで拡散的にファインチューニング
- 10段階のマスク率(1.0, 0.9, ..., 0.1)をランダムに適用
- 先頭16トークンは常にマスクせず、 プロンプト条件付き生成 を実現
- 主な訓練・生成フロー
- 訓練時:バッチごとにマスク率を選択、<MASK>で置換
- 生成時:プロンプト+<MASK>で初期化し、段階的にノイズ除去・トークン復元
- 実験結果:30分の訓練でも 一貫性あるテキスト生成 が可能
- GPT-2と比較して若干遅いが、意外なほど高品質
まとめと今後の展望
- RoBERTaのようなMLMモデル も、マスク率を可変にした拡散的訓練で 生成モデル へ転用可能
- アーキテクチャ変更なしでも、 段階的ノイズ除去による生成 が実現
- 今後は AR-Diffusion や Skip-Step Diffusion などの新手法、実装最適化でさらなる品質・速度向上に期待
- MLMと拡散モデル の関係性理解が、今後の言語モデル設計の指針となる