ジェミニ拡散

2025年5月22日原文(simonwillison.net)

概要

Googleは Gemini Diffusion を発表し、従来の トランスフォーマー に代わる新手法を導入。
拡散モデル を言語生成に応用し、高速かつ高品質な出力を実現。
Gemini Diffusionは エラー訂正 や編集タスクに優れる。
実際の利用で 857トークン/秒 の応答速度を記録。
Gemini 2.0 Flash-Liteの 5倍の速度 を公式に謳う。

Gemini Diffusionとは何か

Google I/Oで発表された Gemini Diffusion は、Google初の 拡散モデルベースLLM であることを確認。
従来の 自己回帰型言語モデル （autoregressive）は、一度に1単語（トークン）ずつ生成するため、 処理が遅く なりやすいことを指摘。
拡散モデルは ノイズから段階的に出力を洗練 することで、直接テキストを予測するのではなく、 高速な反復生成とエラー訂正 を可能にしていることを強調。
この手法により、 編集作業 や 数式・コード生成 などで優れたパフォーマンスを発揮することを提案。

Gemini Diffusionの特徴と体験

最大の特徴は 生成速度の速さ であることを強調。
実際に「Build a simulated chat app」とプロンプトしたところ、 857トークン/秒 の速度でHTML+JavaScriptページを生成することを確認。
結果は 数秒以内 に返され、Claude Artifactsのような インタラクティブな出力 を実現していることを報告。
Cerebras Coder （Llama3.1-70bを2,000トークン/秒で実行）に近い体感速度であることを比較。
Google公式ページでは「 Gemini 2.0 Flash-Liteの5倍の速度」と記載されており、 低コストモデル と同等以上の性能を実現していることを示唆。

拡散モデルとトランスフォーマーの関係

一部で「トランスフォーマーの代替」と誤解されたが、 正確には自己回帰の代替 であることを訂正。
Mercuryなど従来の 拡散LLM もトランスフォーマーを内部で利用しているが、 因果マスキング（causal masking） を行わず、 入力全体を一度に処理 することが特徴であることを確認。
Gemini Diffusionも トランスフォーマー構造 を採用している可能性が高いと推測すること。

今後の展望と課題

現時点で 独立したベンチマーク は未発表であり、今後の評価が期待されることを指摘。
商用グレードの拡散モデルはこれまで Inception Mercury 程度しか存在せず、Gemini Diffusionが 先駆的存在 であることを強調。
編集・生成速度の向上 による新たな応用分野の拡大を期待すること。

まとめ

Gemini Diffusionは 拡散モデルの高速性とトランスフォーマーの強み を融合した次世代LLMであることを再確認。
今後の 第三者評価 や 実運用事例 の登場が重要であることを提案。

Hackerたちの意見

それは…めちゃくちゃ早いね。今まで見てきたモデルの一番の使い道は、新しいコードや素早いプロトタイピングだと思う。大きな既存のコンテンツを改善する能力については、あまり確信が持てないな。というのも、モデルは定義上、コードベースにないものを知ることができないから、そのネガティブスペースには意味のある信号があるんだよね。ないものをエンコードするのは難しい問題に思えるから、モデルが賢くなっても、その組織的な知識の欠如によってハンデを背負い続けると思う。例えば、すごく優秀な開発者に大きなコードベースを渡して、特定の問題を一発で解決してもらおうとしたら、読む時間も質問する機会もない状態だと、ほとんどの場合、そのコードベースに詳しいあまり優秀でない開発者の方が、同じ問題に取り組むのに同じ労力でより価値を生み出せると思う。

└

モデルを十分に速くすれば、その専門の開発者を瞬時にオンボードできて、彼らが自分の力で解決策を見つけられるようになるよ。特にRAGにアクセスを与えるときはね。時間が経つにつれて、モデルはもっとメモリや組織的な知識のキャプチャを追加して、毎回真っさらな状態から始めることはなくなると思う。

これは埋もれてる気がするけど、すごく早いInstructGPTだね。これ絶対にスペルチェックやコードモッド、コードエディタで使われるよ。インスタントエディット機能は、余計なものや不要な強化なしに、テキスト編集を素早く行えるからね。シャーダートイをコピーして、すべての変数をもっと説明的にリネームするように頼んで、その結果をペーストしてもまだ動いてるのを見たよ。感心した。

ディフュージョンは単なるスピード以上のものだよ。初期のベンチマークでは、ARと比べて推論や計画がより優れていることが示されている。これは、編集ができて、初期トークンバイアスに悩まされないからだね。

└

これはすごく興味深い主張だね - そのベンチマークを教えてもらえる？

└

信じたい主張なんだけど、これに関する論文を教えてもらえる？リバイズディフュージョンテキストステップを示す論文やデモは全然見たことがないんだ。ぜひ使ってみたいんだけど。

└

ARは長期的な計画プロセスを妨げないけど、最近の人気のあるARの実装にはその欠点があるよ。一般的にARは、正しい分布を学ぶのに重要なんだ。

ニットだけど、ディフュージョンはトランスフォーマーの代わりじゃなくて、オートリグレッションの代わりだよ。以前のディフュージョンLLM、例えばMercury [1]はトランスフォーマーを使っているけど、因果マスキングがないから、全ての入力が一度に処理されて、出力生成が明らかに違うんだ。これもトランスフォーマーを使っているんじゃないかと強く疑ってるよ。[1] https://www.inceptionlabs.ai/introducing-mercury

└

面白いね、すぐにブロックディフュージョン [0]を思い浮かべたけど、君の言う通りかもしれない。[0] https://m-arriola.com/bd3lms/

└

画像ディフュージョンモデルも最近はトランスフォーマーを使ってるよ。こちらが元の「ディフュージョントランスフォーマー」の論文だよ: https://arxiv.org/abs/2212.09748 以前の画像ディフュージョンモデルはU-netを使ってた: https://en.wikipedia.org/wiki/U-Net

└

ありがとう、コメントを引用するように投稿を更新したよ。

└

マスク拡散ってのもあるよね？

Hacker Newsで議論の続きを見る

ハクソク