Qwen-Image: ネイティブテキストレンダリングを用いた制作

2025年8月5日原文(qwenlm.github.io)

概要

Qwen-Image は20Bパラメータを持つMMDiT画像基盤モデル
複雑なテキスト描画と高精度な画像編集を実現
英語・中国語 両対応の高忠実度テキスト生成
多様なベンチマークで 最先端性能 を達成
アーティストや一般ユーザーにも使いやすい設計

Qwen-Image：次世代画像生成基盤モデルの概要

Qwen-Image は、Alibabaが開発した 20Bパラメータ の画像生成基盤モデル
複雑なテキスト描画 ・ 高精度な画像編集 を両立するマルチモーダルモデル
Qwen Chat で「Image Generation」を選択することで最新モデルを体験可能
英語や中国語など 多言語テキスト を高精度にレンダリング
マルチタスク学習 により意味とリアリズムを両立した画像編集性能
GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSOなど 複数公開ベンチマーク で最先端性能を記録
特に LongText-Bench や ChineseWord、 TextCraft での中国語テキスト生成で圧倒的な精度

テキスト描画能力の実例

宮崎駿アニメ風 の中国古街描写で、店の看板やキャラクター表現も忠実に再現
中華風の対聯（カップル）や書画 も、書体やレイアウトを含めて正確に生成
英語例： 書店のウィンドウディスプレイ で、ポスターや本のタイトルなどテキストを正確に再現
複雑な英語インフォグラフィック （6つのモジュール・アイコン・説明文）も美しくレイアウト
小さな紙片や長文手書き も、画像全体の1/10以下の領域でも高精度に描写
中国語・英語混在 のバイリンガル手書きも自然にレンダリング
映画ポスターやPPTスライド など、複雑なレイアウトやブランド要素も忠実に再現

汎用画像生成・編集機能

写真風・印象派・アニメ・ミニマルデザイン など多様なスタイルに対応
スタイル変換・追加・削除・ディテール強調・テキスト編集・キャラクターポーズ調整 など多彩な編集操作が可能
一般ユーザーでも簡単 にプロレベルの画像編集を実現
アーティストやデザイナー、ストーリーテラーのための 柔軟な創作ツール

Qwen-Imageの意義と今後

画像生成分野の発展促進 と、ビジュアルコンテンツ制作の技術的障壁の低減
イノベーティブな応用 の拡大を目指す
オープン・透明・持続可能な生成AIエコシステム の構築に向けたコミュニティ参加とフィードバックを歓迎

公式リソース

Hugging Face: Qwen-Image
デモ・技術詳細: Qwen Chat等で公開予定

Hackerたちの意見

セクション3.2 データフィルタリングをチェックしてみて: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Q...

└

英語と中国語以外の言語が名前や表示されてないのもなんか面白いよね。

4oの画像生成とは違って、画像が変わらないのはすごいね。4oを使って誰かの服を調整しようとすると、顔も変わっちゃうことが多いんだ。これは、編集が必要な要素だけに認識できるAIアーティファクトを適用してるみたい。

└

4oでは、編集したいエリアを選択できて、他の部分はそのままにしてくれるよ。

└

だからFlux Kontextはすごく重要だったんだよね。手動でコンテンツをマスクすることなく、img2imgのインペインティングの力を与えてくれたから。

こんなに良い中国のオープンソースモデルが出てるなんて、マジで驚き。希望が持てるよ。

なんでこれがもっと注目されないのか分からないけど、これは全ての面でgpt-image-1を超え、編集能力に関してはFlux Kontextも上回る初のオープンソースモデルみたい。これはすごいことだと思う。

└

まだ数時間しか経ってないのに、デモがずっとエラー出まくりだね。みんながワクワクする前に、もうちょっと遊ぶ時間が必要だと思う。量子化されたGGUFや、いろんな快適なワークフローも大きな要素になりそう。だって、みんなローカルで動かしたいけど、他のモデルに比べてサイズがかなり大きいからね。面白いことに、比較するならアリババとアリババの間かも。つまり、画像生成にWan 2.2を使うのがすごく人気だから、ほとんどの人はFluxよりもQwen-Imageがどれくらい進化しているかを知りたがるだろうね。新しい画像モデルの良さを判断するには、ローンチから約1週間がベストみたい。そうすると、みんなが実際にいじってみて、モデルの長所短所を出してくれるからね。これには期待してるよ！

└

彼らのページからははっきりしないけど、編集モデルはまだリリースされてないみたいだね。

└

私が理解している限り、動かすのに40GBのVRAMが必要っていうのが、ちょっと盛り上がりを抑えてる原因かも。余談だけど、LLMモデルでは複数のカードに分散する技術がかなり成熟してるのに、画像モデルではGGUFを使ってるにもかかわらず、それが実現してないのが不思議だね。画像モデルが大きくなるにつれて、実装が進むかもしれないけど。

└

gpt-image-1よりもずっと多機能だと思うよ？スタイル転送、オブジェクトの追加や削除、テキスト編集、人間のポーズの操作に加えて、オブジェクト検出、セマンティックセグメンテーション、深度/エッジ推定、超解像、そして新しい視点合成（NVS）もサポートしてる。つまり、基本画像から新しい視点を合成するってこと。かなりのバラエティだね！初期の結果を見る限り、gpt-image-1の方が少しシャープさとクリアさがある気がするけど、正直言ってOpenAIが単に基本的なアンシャープマスクみたいな後処理をしてるだけなのかも？それがちょっと疑わしいんだよね。だって、ボケてる部分でもシャープさが妙に均一に見えるし、時にはちょっとやりすぎな感じもある。まあ、これも同じくらい良さそうだね。印象的だよ！OpenAIは独自の画像生成ソリューションで、少なくとも今年はリードを取ってると思ってたから。あ、Flux Kreaは発表から4日経ってもまだ持ってるよ！もしこれがgpt-image-1と本当に同じくらいの品質ならね。

└

gpt-image-1を除けば、AI画像生成についての議論はかなり人気がなくなったね。理由は、a) AIの話題がAIエージェントやバイブコーディングに支配されていること、b) AI画像生成に対する社会的な偏見が増していることだと思う。Flux Kontextは画像編集に革命をもたらすリリースで、すごいことができるけど、まだあまり知られてないんだ。Qwen-Imageはもっと寛容なライセンスを持っていて、編集モデルがリリースされれば、もっと革新が起こるかもしれないね。

Hacker Newsで議論の続きを見る

ハクソク