概要
Moebiusは、わずか 0.22Bパラメータ で 10Bクラスの高品質画像補完 を実現する軽量フレームワーク。 LλMIブロック と 多粒度蒸留戦略 で表現力と効率性を両立。 FLUX.1-Fill-Devと同等またはそれ以上の性能を 15倍以上の高速化 で達成。 消費リソースが少なく、エッジデバイスでも動作可能。 自然・人物画像の両方で 最新SOTAモデルを凌駕 する実験結果。
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
- 産業用10Bモデル は高精度だが、 計算コストが膨大 で実用性に課題
- Moebius は、 極限まで圧縮した特化型構造 で表現力低下を克服
- Local-λ Mix Interaction(LλMI)ブロック で空間文脈とグローバル意味を 固定サイズ行列 に凝縮
- Local-λ と Interactive-λモジュール から構成
- 複雑な潜在相互作用 を維持しつつ パラメータを大幅削減
- 適応的多粒度蒸留戦略 で表現力の最大化
- 潜在空間内のみ で蒸留を行い、 高価なピクセル空間復号を回避
- 複数の勾配損失 を動的にバランスし、高忠実度の整合性を実現
- FLUX.1-Fill-Dev(11.9B)と比較し、パラメータは2%未満(0.22B)
- 推論速度は15倍以上高速化(26ms/step)
- Places2(自然)、CelebA-HQ・FFHQ(人物)など6ベンチマークでSOTA性能
- 複雑な質感や顔の自然さ で10B級モデルを上回る場面も確認
コア技術・イノベーション
- LλMIブロック
- 自己・クロスアテンション を再定義し、 空間文脈と意味情報 を 線形行列 で圧縮
- 計算量の二次的増大 を回避
- 適応的多粒度蒸留戦略
- PixelHacker(教師) の表現力を 潜在空間のみ でMoebius(生徒)に転送
- 中間特徴から拡散経路まで 多粒度で監督
- 勾配ノルムに基づく損失重み付け で最適な学習バランスを実現
- 構造と蒸留の相乗最適化
- コンパクト構造と蒸留の 相互制約と上限 を探求
- 表現飽和を回避しつつ最大限の意味推論 を獲得
Moebiusの特徴
- 極限のパラメトリック効率(<2%)
- 0.22Bパラメータ でFLUX.1-Fill-Dev(11.9B)の2%未満
- エッジデバイスや一般PCでも高品質インペインティングが可能
- 15倍以上の推論高速化
- 単一GPUで26ms/step の低遅延
- サンプリング最適化 と組み合わせて 全体で15倍以上の高速化
- 10B級の補完品質
- サイズ縮小=表現力低下 ではない
- 構造と蒸留の最適化 でFLUX.1-Fill-Dev、SD3.5 Large-Inpaintingに匹敵・凌駕
- 自然・人物両方のシーン で高評価
- タスク特化型スペシャリスト
- 巨大汎用モデル の肥大化に対し、 明確なタスク定義で軽量・高効率化
- 現実的な画像補完・AIオブジェクト除去 を解放
ビジュアル比較
- 自然画像(Places2)・人物画像(CelebA-HQ, FFHQ) での補完品質比較
- Moebiusは高精細で自然な補完結果 を実現
論文情報
- タイトル: Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
- 著者: Kangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
- arXiv: https://arxiv.org/abs/2606.19195
- 発表年: 2026
Moebiusの意義と今後
- 計算資源やコストの制約下でもSOTA品質を実現
- AI画像補完技術の大衆化・現場導入 を加速
- 今後のモデル設計方針 として「タスク特化型×蒸留」の有効性を示唆