Moebius: 10Bレベルの性能を持つ0.2B画像インペインティングモデル

2026年6月22日原文(hustvl.github.io)

概要

Moebiusは、わずか 0.22Bパラメータ で 10Bクラスの高品質画像補完 を実現する軽量フレームワーク。 LλMIブロック と 多粒度蒸留戦略 で表現力と効率性を両立。 FLUX.1-Fill-Devと同等またはそれ以上の性能を 15倍以上の高速化 で達成。 消費リソースが少なく、エッジデバイスでも動作可能。自然・人物画像の両方で 最新SOTAモデルを凌駕 する実験結果。

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

産業用10Bモデル は高精度だが、 計算コストが膨大 で実用性に課題
Moebius は、 極限まで圧縮した特化型構造 で表現力低下を克服
Local-λ Mix Interaction（LλMI）ブロック で空間文脈とグローバル意味を 固定サイズ行列 に凝縮
- Local-λ と Interactive-λモジュール から構成
- 複雑な潜在相互作用 を維持しつつ パラメータを大幅削減
適応的多粒度蒸留戦略 で表現力の最大化
- 潜在空間内のみ で蒸留を行い、 高価なピクセル空間復号を回避
- 複数の勾配損失 を動的にバランスし、高忠実度の整合性を実現
FLUX.1-Fill-Dev（11.9B）と比較し、パラメータは2%未満（0.22B）
推論速度は15倍以上高速化（26ms/step）
Places2（自然）、CelebA-HQ・FFHQ（人物）など6ベンチマークでSOTA性能
複雑な質感や顔の自然さ で10B級モデルを上回る場面も確認

コア技術・イノベーション

LλMIブロック
- 自己・クロスアテンション を再定義し、 空間文脈と意味情報 を 線形行列 で圧縮
- 計算量の二次的増大 を回避
適応的多粒度蒸留戦略
- PixelHacker（教師） の表現力を 潜在空間のみ でMoebius（生徒）に転送
- 中間特徴から拡散経路まで 多粒度で監督
- 勾配ノルムに基づく損失重み付け で最適な学習バランスを実現
構造と蒸留の相乗最適化
- コンパクト構造と蒸留の 相互制約と上限 を探求
- 表現飽和を回避しつつ最大限の意味推論 を獲得

Moebiusの特徴

極限のパラメトリック効率（<2%）
- 0.22Bパラメータ でFLUX.1-Fill-Dev（11.9B）の2%未満
- エッジデバイスや一般PCでも高品質インペインティングが可能
15倍以上の推論高速化
- 単一GPUで26ms/step の低遅延
- サンプリング最適化 と組み合わせて 全体で15倍以上の高速化
10B級の補完品質
- サイズ縮小＝表現力低下 ではない
- 構造と蒸留の最適化 でFLUX.1-Fill-Dev、SD3.5 Large-Inpaintingに匹敵・凌駕
- 自然・人物両方のシーン で高評価
タスク特化型スペシャリスト
- 巨大汎用モデル の肥大化に対し、 明確なタスク定義で軽量・高効率化
- 現実的な画像補完・AIオブジェクト除去 を解放

ビジュアル比較

自然画像（Places2）・人物画像（CelebA-HQ, FFHQ） での補完品質比較
Moebiusは高精細で自然な補完結果 を実現

論文情報

タイトル: Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
著者: Kangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
arXiv: https://arxiv.org/abs/2606.19195
発表年: 2026

Moebiusの意義と今後

計算資源やコストの制約下でもSOTA品質を実現
AI画像補完技術の大衆化・現場導入 を加速
今後のモデル設計方針 として「タスク特化型×蒸留」の有効性を示唆

ハクソク