概要
- Qwen-Image は20Bパラメータを持つMMDiT画像基盤モデル
- 複雑なテキスト描画と高精度な画像編集を実現
- 英語・中国語 両対応の高忠実度テキスト生成
- 多様なベンチマークで 最先端性能 を達成
- アーティストや一般ユーザーにも使いやすい設計
Qwen-Image:次世代画像生成基盤モデルの概要
- Qwen-Image は、Alibabaが開発した 20Bパラメータ の画像生成基盤モデル
- 複雑なテキスト描画 ・ 高精度な画像編集 を両立するマルチモーダルモデル
- Qwen Chat で「Image Generation」を選択することで最新モデルを体験可能
- 英語や中国語など 多言語テキスト を高精度にレンダリング
- マルチタスク学習 により意味とリアリズムを両立した画像編集性能
- GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSOなど 複数公開ベンチマーク で最先端性能を記録
- 特に LongText-Bench や ChineseWord、 TextCraft での中国語テキスト生成で圧倒的な精度
テキスト描画能力の実例
- 宮崎駿アニメ風 の中国古街描写で、店の看板やキャラクター表現も忠実に再現
- 中華風の対聯(カップル)や書画 も、書体やレイアウトを含めて正確に生成
- 英語例: 書店のウィンドウディスプレイ で、ポスターや本のタイトルなどテキストを正確に再現
- 複雑な英語インフォグラフィック (6つのモジュール・アイコン・説明文)も美しくレイアウト
- 小さな紙片や長文手書き も、画像全体の1/10以下の領域でも高精度に描写
- 中国語・英語混在 のバイリンガル手書きも自然にレンダリング
- 映画ポスターやPPTスライド など、複雑なレイアウトやブランド要素も忠実に再現
汎用画像生成・編集機能
- 写真風・印象派・アニメ・ミニマルデザイン など多様なスタイルに対応
- スタイル変換・追加・削除・ディテール強調・テキスト編集・キャラクターポーズ調整 など多彩な編集操作が可能
- 一般ユーザーでも簡単 にプロレベルの画像編集を実現
- アーティストやデザイナー、ストーリーテラーのための 柔軟な創作ツール
Qwen-Imageの意義と今後
- 画像生成分野の発展促進 と、ビジュアルコンテンツ制作の技術的障壁の低減
- イノベーティブな応用 の拡大を目指す
- オープン・透明・持続可能な生成AIエコシステム の構築に向けたコミュニティ参加とフィードバックを歓迎
公式リソース
- Hugging Face: Qwen-Image
- デモ・技術詳細: Qwen Chat等で公開予定