世界を動かす技術を、日本語で。

Moebius: 10Bレベルの性能を持つ0.2B画像インペインティングモデル

2026年6月22日原文(hustvl.github.io)

概要

Moebiusは、わずか 0.22Bパラメータ10Bクラスの高品質画像補完 を実現する軽量フレームワーク。 LλMIブロック多粒度蒸留戦略 で表現力と効率性を両立。 FLUX.1-Fill-Devと同等またはそれ以上の性能を 15倍以上の高速化 で達成。 消費リソースが少なく、エッジデバイスでも動作可能。 自然・人物画像の両方で 最新SOTAモデルを凌駕 する実験結果。

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

  • 産業用10Bモデル は高精度だが、 計算コストが膨大 で実用性に課題
  • Moebius は、 極限まで圧縮した特化型構造 で表現力低下を克服
  • Local-λ Mix Interaction(LλMI)ブロック で空間文脈とグローバル意味を 固定サイズ行列 に凝縮
    • Local-λInteractive-λモジュール から構成
    • 複雑な潜在相互作用 を維持しつつ パラメータを大幅削減
  • 適応的多粒度蒸留戦略 で表現力の最大化
    • 潜在空間内のみ で蒸留を行い、 高価なピクセル空間復号を回避
    • 複数の勾配損失 を動的にバランスし、高忠実度の整合性を実現
  • FLUX.1-Fill-Dev(11.9B)と比較し、パラメータは2%未満(0.22B)
  • 推論速度は15倍以上高速化(26ms/step)
  • Places2(自然)、CelebA-HQ・FFHQ(人物)など6ベンチマークでSOTA性能
  • 複雑な質感や顔の自然さ で10B級モデルを上回る場面も確認

コア技術・イノベーション

  • LλMIブロック
    • 自己・クロスアテンション を再定義し、 空間文脈と意味情報線形行列 で圧縮
    • 計算量の二次的増大 を回避
  • 適応的多粒度蒸留戦略
    • PixelHacker(教師) の表現力を 潜在空間のみ でMoebius(生徒)に転送
    • 中間特徴から拡散経路まで 多粒度で監督
    • 勾配ノルムに基づく損失重み付け で最適な学習バランスを実現
  • 構造と蒸留の相乗最適化
    • コンパクト構造と蒸留の 相互制約と上限 を探求
    • 表現飽和を回避しつつ最大限の意味推論 を獲得

Moebiusの特徴

  • 極限のパラメトリック効率(<2%)
    • 0.22Bパラメータ でFLUX.1-Fill-Dev(11.9B)の2%未満
    • エッジデバイスや一般PCでも高品質インペインティングが可能
  • 15倍以上の推論高速化
    • 単一GPUで26ms/step の低遅延
    • サンプリング最適化 と組み合わせて 全体で15倍以上の高速化
  • 10B級の補完品質
    • サイズ縮小=表現力低下 ではない
    • 構造と蒸留の最適化 でFLUX.1-Fill-Dev、SD3.5 Large-Inpaintingに匹敵・凌駕
    • 自然・人物両方のシーン で高評価
  • タスク特化型スペシャリスト
    • 巨大汎用モデル の肥大化に対し、 明確なタスク定義で軽量・高効率化
    • 現実的な画像補完・AIオブジェクト除去 を解放

ビジュアル比較

  • 自然画像(Places2)・人物画像(CelebA-HQ, FFHQ) での補完品質比較
  • Moebiusは高精細で自然な補完結果 を実現

論文情報

  • タイトル: Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
  • 著者: Kangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang
  • arXiv: https://arxiv.org/abs/2606.19195
  • 発表年: 2026

Moebiusの意義と今後

  • 計算資源やコストの制約下でもSOTA品質を実現
  • AI画像補完技術の大衆化・現場導入 を加速
  • 今後のモデル設計方針 として「タスク特化型×蒸留」の有効性を示唆

Hackerたちの意見

関係ないけど、インペインティングとモエビウスを読んでたら、なんか怖くなった。ジャン・ジロのアートが関係してるのかと思って。

なんで怖いの?

よくわからないな。どこかで試せるの?それともただの広告なの?

そうだね、すごいけど、どうやって使うの?追記:見つけたかも。

現在のインペインティングの最先端って何?eコマースのプロジェクトで、ユーザーが自宅の外観の画像をアップロードして、日よけをインペイントしたいんだ。

プロプライエタリ?gpt-image-2かNB2のどちらかだね。大きな床から天井までの窓を鏡に置き換えたインテリアデコレーションのインペインティングの例があるけど、約1年前にNB Proを使ったらかなり印象的な結果が出たよ。 https://imgpb.com/ZXkiXV ローカルホスト可能?俺の意見ではFlux.2 Kleinがいいと思うけど、Qwen-Editも頑張ってるね。

Flux KleinとLoRa。GPT画像とナノは、編集時に高周波のアーティファクトをよく出すね。

日よけのことだけど、もし合ってたら(今この言葉を覚えたばかり)、構造物の外観に付け加えるものだから、フルインペインティングモデルは必要ないかも?四角形のアフィン変換を推定して、日よけの画像を直接ブレンドすれば十分じゃない?影のマップを使って影を偽装するのも同様に。最近の古典的なフォトグラメトリでそんなことできるのかな?

これは便利なAIのやつだね。使い道がめっちゃあるよ。

最近7日間で、スマホで撮った写真を何回編集した?

そうなんだよ、それがイライラする。特定のことに対して信頼できるローカルなモデルがあれば、すごく役立つ場面がたくさんあるのに。だけど、誰も10億ドルを投資して、素晴らしいゴミ除去や完璧なシーンセグメンテーションを実現しようとは思わないよね。結局、クラウドにアップロードして、大きなマルチモーダルモデルに「お願いだからやってね」って頼むだけ。

これを使ったデモスペースがいくつかあるよ。この中では「自分のマスクを描く」やつが一番良さそうだけど、試した画像全部で失敗したわ。: https://huggingface.co/spaces/multimodalart/Moebius

Hacker Newsで議論の続きを見る