世界を動かす技術を、日本語で。

Qwen-Image: ネイティブテキストレンダリングを用いた制作

概要

  • Qwen-Image は20Bパラメータを持つMMDiT画像基盤モデル
  • 複雑なテキスト描画と高精度な画像編集を実現
  • 英語・中国語 両対応の高忠実度テキスト生成
  • 多様なベンチマークで 最先端性能 を達成
  • アーティストや一般ユーザーにも使いやすい設計

Qwen-Image:次世代画像生成基盤モデルの概要

  • Qwen-Image は、Alibabaが開発した 20Bパラメータ の画像生成基盤モデル
  • 複雑なテキスト描画高精度な画像編集 を両立するマルチモーダルモデル
  • Qwen Chat で「Image Generation」を選択することで最新モデルを体験可能
  • 英語や中国語など 多言語テキスト を高精度にレンダリング
  • マルチタスク学習 により意味とリアリズムを両立した画像編集性能
  • GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSOなど 複数公開ベンチマーク で最先端性能を記録
  • 特に LongText-BenchChineseWordTextCraft での中国語テキスト生成で圧倒的な精度

テキスト描画能力の実例

  • 宮崎駿アニメ風 の中国古街描写で、店の看板やキャラクター表現も忠実に再現
  • 中華風の対聯(カップル)や書画 も、書体やレイアウトを含めて正確に生成
  • 英語例: 書店のウィンドウディスプレイ で、ポスターや本のタイトルなどテキストを正確に再現
  • 複雑な英語インフォグラフィック (6つのモジュール・アイコン・説明文)も美しくレイアウト
  • 小さな紙片や長文手書き も、画像全体の1/10以下の領域でも高精度に描写
  • 中国語・英語混在 のバイリンガル手書きも自然にレンダリング
  • 映画ポスターやPPTスライド など、複雑なレイアウトやブランド要素も忠実に再現

汎用画像生成・編集機能

  • 写真風・印象派・アニメ・ミニマルデザイン など多様なスタイルに対応
  • スタイル変換・追加・削除・ディテール強調・テキスト編集・キャラクターポーズ調整 など多彩な編集操作が可能
  • 一般ユーザーでも簡単 にプロレベルの画像編集を実現
  • アーティストやデザイナー、ストーリーテラーのための 柔軟な創作ツール

Qwen-Imageの意義と今後

  • 画像生成分野の発展促進 と、ビジュアルコンテンツ制作の技術的障壁の低減
  • イノベーティブな応用 の拡大を目指す
  • オープン・透明・持続可能な生成AIエコシステム の構築に向けたコミュニティ参加とフィードバックを歓迎

公式リソース

  • Hugging Face: Qwen-Image
  • デモ・技術詳細: Qwen Chat等で公開予定

Hackerたちの意見

セクション3.2 データフィルタリングをチェックしてみて: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Q...

英語と中国語以外の言語が名前や表示されてないのもなんか面白いよね。

4oの画像生成とは違って、画像が変わらないのはすごいね。4oを使って誰かの服を調整しようとすると、顔も変わっちゃうことが多いんだ。これは、編集が必要な要素だけに認識できるAIアーティファクトを適用してるみたい。

4oでは、編集したいエリアを選択できて、他の部分はそのままにしてくれるよ。

だからFlux Kontextはすごく重要だったんだよね。手動でコンテンツをマスクすることなく、img2imgのインペインティングの力を与えてくれたから。

こんなに良い中国のオープンソースモデルが出てるなんて、マジで驚き。希望が持てるよ。

なんでこれがもっと注目されないのか分からないけど、これは全ての面でgpt-image-1を超え、編集能力に関してはFlux Kontextも上回る初のオープンソースモデルみたい。これはすごいことだと思う。

まだ数時間しか経ってないのに、デモがずっとエラー出まくりだね。みんながワクワクする前に、もうちょっと遊ぶ時間が必要だと思う。量子化されたGGUFや、いろんな快適なワークフローも大きな要素になりそう。だって、みんなローカルで動かしたいけど、他のモデルに比べてサイズがかなり大きいからね。面白いことに、比較するならアリババとアリババの間かも。つまり、画像生成にWan 2.2を使うのがすごく人気だから、ほとんどの人はFluxよりもQwen-Imageがどれくらい進化しているかを知りたがるだろうね。新しい画像モデルの良さを判断するには、ローンチから約1週間がベストみたい。そうすると、みんなが実際にいじってみて、モデルの長所短所を出してくれるからね。これには期待してるよ!

彼らのページからははっきりしないけど、編集モデルはまだリリースされてないみたいだね。

私が理解している限り、動かすのに40GBのVRAMが必要っていうのが、ちょっと盛り上がりを抑えてる原因かも。余談だけど、LLMモデルでは複数のカードに分散する技術がかなり成熟してるのに、画像モデルではGGUFを使ってるにもかかわらず、それが実現してないのが不思議だね。画像モデルが大きくなるにつれて、実装が進むかもしれないけど。

gpt-image-1よりもずっと多機能だと思うよ?スタイル転送、オブジェクトの追加や削除、テキスト編集、人間のポーズの操作に加えて、オブジェクト検出、セマンティックセグメンテーション、深度/エッジ推定、超解像、そして新しい視点合成(NVS)もサポートしてる。つまり、基本画像から新しい視点を合成するってこと。かなりのバラエティだね!初期の結果を見る限り、gpt-image-1の方が少しシャープさとクリアさがある気がするけど、正直言ってOpenAIが単に基本的なアンシャープマスクみたいな後処理をしてるだけなのかも?それがちょっと疑わしいんだよね。だって、ボケてる部分でもシャープさが妙に均一に見えるし、時にはちょっとやりすぎな感じもある。まあ、これも同じくらい良さそうだね。印象的だよ!OpenAIは独自の画像生成ソリューションで、少なくとも今年はリードを取ってると思ってたから。あ、Flux Kreaは発表から4日経ってもまだ持ってるよ!もしこれがgpt-image-1と本当に同じくらいの品質ならね。

gpt-image-1を除けば、AI画像生成についての議論はかなり人気がなくなったね。理由は、a) AIの話題がAIエージェントやバイブコーディングに支配されていること、b) AI画像生成に対する社会的な偏見が増していることだと思う。Flux Kontextは画像編集に革命をもたらすリリースで、すごいことができるけど、まだあまり知られてないんだ。Qwen-Imageはもっと寛容なライセンスを持っていて、編集モデルがリリースされれば、もっと革新が起こるかもしれないね。

画像編集ソフトがないのに、どうやってgpt-image-1に勝てるの?

これを普段やってる人には明らかかもしれないけど、これを動かすにはどんなマシンが必要なの?16GBのGPUと64GBのRAMがあるLinuxマシンでダウンロードして試してみたけど、SDは簡単に動くのに、Qwen-imageはGPUでもCPUでもスペースが足りなかった。明らかにそれじゃ足りないみたい。2倍くらい足りないのかな?それとも桁違い?すごいハードウェアが必要なの?

4ビット量子化されたバージョンが出てくるまで、数日待たなきゃいけないかもね。パラメータは20Bだし。

モデルファイルとほぼ同じサイズだと思うよ。transformersフォルダを見れば、約9つの5GBファイルがあるのが分かるから、GPUには約45GBのVRAMが必要だと思う。通常、量子化されたモデルのバージョンは、最終的にはもっと少ないVRAMで動くように作られるけど、品質が少し落ちることがある。

私が理解している限り、動かすのに40GBのVRAMが必要っていうのが、ちょっと盛り上がりを抑えてる原因かも。PCはPCIe 4.0 x16のスロットが2つ以上あるものを想定してるのかな?つまり、かなりの消費者向けマザーボードだよね。それから、24GBのVRAMを持つGPUを2つ入れるんだ。友達がこれを動かしてるけど(まだQwen-Imageを試したかは知らない)、そんなに「すごい」マシンじゃないみたい。

これは普段やってる人には明らかかもしれないけど、実際はそんなに明らかじゃないよ。VLMやLLMのVRAM使用量を計算するのは、ちょっとした秘術みたいなもんだ。使えるオンライン計算機が10個くらいあるけど、どれもイマイチ。量子化やKVキャッシング、活性化、レイヤーとか、いろんな要素が影響するから面倒くさい。でもまあ、このモデルには40GB以上のVRAMが必要だよ。システムRAMじゃ無理だね、Apple Siliconの統合RAMじゃない限り。そもそも、メモリ帯域幅が足りないから、推論はGPUやTPUに比べてめっちゃ遅くなる。

16GiBのRAMで8ビット量子化。これは少しスケールアップしたSD3 Largeモデル(38レイヤーから60レイヤー)。

プロダクション推論では、1xH100がうまく動いてるよ。

誰か、実際にこれらのモデルにテキストレンダリングをどうやって訓練したのか知ってる?私には、どのモデルも同じアーティファクトに悩まされているように見える。テキストがちょっと不自然に見えて、画像の他の部分と同じ影や反射がないんだよね。私が試したモデル、OpenAIからFluxまで全部そうだった。おそらく、みんな同じトリックを使ってるのかな?

技術報告書の14ページに載ってるよ。彼らは画像の上にテキストを重ねて合成データを生成してるみたいで、元の照明を考慮してないらしい。だから、その見た目をモデルが再現してるんだ。ゴミを入れればゴミが出てくるってことかな。将来的には、リアルなテキストを画像に入れる方法が誰かによって考案されて、リアルなテキストを画像に入れるためのモデルを訓練するデータを生成できるようになるかもしれないね。

短いキャンバス。

どれくらい検閲されてるの?

新しいモデルの発表のたびにコミュニティが知りたがる唯一のことがこれってのが面白いけど、どの組織も人間の本質の厳しい現実に向き合いたくないんだよね。それと、アメリカの人たちや企業の変な慎みも。

良いリリースだね!GenAI Showdownサイトに追加したよ。全体的に約40%のスコアで、消費者向けGPUハードウェアで合理的にホストできるものとしては、確実にSOTAを代表してる。ただ、txt2imgのプロンプト遵守に関しては、OpenAIのgpt-image-1にはかなり遅れを取ってるけどね。でも、スレッドの他のところでも言われてるように、このモデルは編集とか他のことに関してはもっとできることが多いよ。 https://genai-showdown.specr.net

どのくらい安いグラフィックカードで、そこそこ使える自ホストができるかな?