BERTは単一のテキスト拡散ステップに過ぎない

概要

Gemini Diffusion は、従来の GPT 系の1トークンずつ生成とは異なり、 ノイズからブロック単位でテキスト生成 を行う新方式
拡散モデルは元々画像生成で普及し、 ノイズ加算→段階的除去 という2段階プロセスを持つ
- 画像の場合： ガウスノイズ を加え、U-Net等で逆方向にノイズ除去
- テキストの場合： マスク を段階的に増やし、逆に除去して元のテキストを再構築
マスク言語モデル（MLM） は、拡散モデルの特殊ケース（一定マスク率のみ）であり、マスク率を可変にすれば 拡散的生成 が可能
これにより、BERTやRoBERTaも 段階的生成モデル として機能

Transformer は2017年に Encoder-Decoder 構造で登場
2018年以降、 Encoderのみ（BERT） ・ Decoderのみ（GPT） に分化
- Encoder系（BERT） ：双方向文脈、MLMで訓練、分類や検索タスクに強み
- Decoder系（GPT） ：次トークン予測、生成タスクに強み
BERTは即座に分類タスクで活用されたが、生成力はGPT系列に軍配
拡散的生成 の登場で、BERT系も生成タスクに新たな可能性

HuggingFace Transformers を用い、RoBERTaをWikiTextデータセットで拡散的にファインチューニング
- 10段階のマスク率（1.0, 0.9, ..., 0.1）をランダムに適用
- 先頭16トークンは常にマスクせず、 プロンプト条件付き生成 を実現
主な訓練・生成フロー
- 訓練時：バッチごとにマスク率を選択、<MASK>で置換
- 生成時：プロンプト＋<MASK>で初期化し、段階的にノイズ除去・トークン復元
実験結果：30分の訓練でも 一貫性あるテキスト生成 が可能
- GPT-2と比較して若干遅いが、意外なほど高品質