Qwen VLo: 世界を「理解する」から「描写する」へ

2025年6月27日原文(qwenlm.github.io)

概要

Qwen VLo は、画像理解と生成を統合した最新のマルチモーダルモデル
自然言語指示 で画像生成・編集が可能、柔軟性と精度が大幅向上
多言語対応 や動的解像度など、実用性と汎用性を強化
進化した生成プロセス で芸術的・技術的な創作を支援
現在プレビュー版として Qwen Chat で利用可能

Qwen VLo：統合型マルチモーダル理解・生成モデル

Qwen VLo は、画像の「理解」と「生成」を同時に実現する統合型モデル
進化した Qwen2.5 VL の後継として、より高精度な画像内容把握と再現を実現
画像生成は 左から右・上から下 へ段階的に進行、リアルタイムで最適化
ユーザーは「可愛い猫の画像を生成」や「猫の頭に帽子を追加」など、 自然言語指示 で操作可能
Qwen Chat を通じてプレビュー版が公開中

クリエイティブプロセス：想像力を現実へ

段階的生成方式 により、画像の一貫性と高品質を両立
生成途中での細やかな修正や調整が可能、 柔軟な創作体験 を提供
ユーザーのイマジネーションを直感的にビジュアル化

マルチモーダル生成能力の強化

詳細把握力 の向上で、画像内容の誤認や構造崩壊を大幅に低減
例：車の写真に「色を変えて」と指示→車種や形状を維持しつつ自然な色変更
芸術的スタイル変換 やシーン再構築、細部の修正も自然言語で簡単指示
1回の指示で 複数の編集操作 （背景変更・物体追加・テキスト編集など）に対応
深度マップ・セグメンテーション・エッジ検出 などの視覚認識タスクも指示で実行

多言語指示対応

中国語・英語 など多言語対応、グローバルなユーザー体験を実現
言語の壁を越えて直感的な操作が可能

デモケース

画像生成・編集 ：背景差し替え、被写体追加、スタイル転換、複雑な指示による大規模編集
スタイル変換 ：アニメ→リアル、人物→バルーンなど多様な変換
複数操作同時実行 ：ポスター作成やオブジェクト合成など、一括指示で完結
画像情報のアノテーション ：検出・セグメンテーション・エッジ抽出など
複数画像入力 （今後対応予定）、 動的アスペクト比 での画像生成（例：4:1, 1:3等、近日公開）

生成と理解の相互作用

生成した画像の再解析・理解 が可能（例：犬や猫の品種判別）
テキスト・画像の両入力に対応、ポスターやバナーなど多様な用途に最適化

利用方法

動的解像度トレーニング で、任意の解像度・アスペクト比に対応
ポスター・イラスト・Webバナー・SNSカバーなど多様なフォーマットに適応
革新的生成機構 ：上から下・左から右へ段階的生成、リアルタイム調整が可能
- 長文テキスト入り画像（広告・コミックパネル等）にも最適

制限事項（プレビュー版）

生成結果に 不正確さ・一貫性の欠如・指示不履行 などの問題が発生する場合あり
モデルの意図理解や安定性に今後も改善を継続

今後の展望：画像で表現し、生成で理解を深める

双方向テキスト・画像入出力 による新たな表現・対話手段の創出
図表生成、補助線追加、注釈付与など多様なコミュニケーションツールへの発展
中間生成結果（セグメンテーション・検出マップ等） を活用した自己理解・性能向上
今後も 多様な生成・理解タスク への対応を拡充予定

Hackerたちの意見

オープンウェイトがないのは残念だね。Qwenの強みの一つはオープンウェイト戦略だったから、4oの自己回帰型画像生成に対抗できる本当のオープンウェイトの競争相手がいたらよかったのに。ウェイトにアクセスできれば、面白い研究の方向性がたくさんあるのに。もしQwenが開発コストの回収を気にしているなら、最近のBFLのFlux Kontext Devのリリースをモデルにしてみるといいよ。研究者や個人には無料でウェイトを提供して、スタートアップには商業利用のためにリーズナブルなライセンス料を払わせるっていう感じで。

└

それに、明らかにOAIの出力で訓練されてるのがわかる。画像のオレンジ色の tint からね。自分たちのデータを作ろうとしたのかな？つまり、OAIから訓練されてるってことだし、OAIと同じくらい閉じられていて、最も重要なのはOAIよりも劣ってるってこと。これをAPIの背後に隠すなんて、なんて奇妙な戦略なんだ。

└

Qwenの強みの一つは、歴史的にオープンウェイト戦略だったんだよね。> 研究者や個人は無料でウェイトを手に入れられて、スタートアップは商業利用のために手頃なライセンス料を払う。でも、オープンウェイトを提案してるなら、みんなが自由に使えるべきじゃない？実質的には「トライアルウェイト」や「シェアウェアウェイト」、「アカデミックウェイト」みたいな感じで、オープンウェイトって言っても「オープンソース」ソフトウェアのように自由に使えるわけじゃないってことだよね。もし「オープンソース」の本質である「好きなように使える」部分が欠けてたら、ちょっと誤解を招くかも。

└

中国のオープンウェイトの時代は、何か理由があって終わったみたいだね。急に来た感じで、なんか調整されてるみたい。アリババはQwenのリリースを止めたし、テンセントはフンユアンのリリースを止めた。バイトダンスはSeedreamをリリースしたけど、これはクローズドだし、もう終わりっぽい。とはいえ、彼らはまだ西洋の成果に基づいてトレーニングしてるみたい。戦略的には100%オープンになって、インフラやサービスを売るのがいいんじゃないかと思ってる。

└

Qwenの強みの一つは、歴史的にオープンウェイト戦略だったんだよね。> 研究者や個人は無料でウェイトを手に入れられて、スタートアップは商業利用のために手頃なライセンス料を払う。個人的には、企業が何千万ドルもの投資やGPU時間、エンジニアの給料を画像生成の料金から回収できるとは思えないな。

これに関する技術報告書や、似たような方法で画像を生成する他のモデルの報告書って誰か知ってる？4oのような画像生成の背後にあるアーキテクチャを理解したいんだ。

俺の目には、これらの画像はすべて不気味の谷に入ってるように見える。色合いや影がちょっとおかしいんだよね。

└

みんな本当に雑だね。この手の出力の使い道は研究以外にはあまり見当たらない。

定番のペリカンが自転車に乗ってる画像（SVGじゃなくて画像ね）といくつかのアコーディオンの画像を試してみた。指の描写や黒鍵の再現にちょっと苦労してるみたい。結構速いよ。

└

サイモンのテストのポイントを見逃してるかも？自転車に乗ったペリカンの絵をAIが描くのは、Stable Diffusion 2/3の間に解決された問題なんだよ。ピクセルベースのフォーマットではなくSVGを使うことが挑戦の所在で、SVGを正しくするためにはある程度の推論が必要なんだ。

クマの画像を編集する例を見てたら、モデルが厳密に求められた以上のことを変えてるように見えた。例えば、背景を変えてって頼んだら、クマも完全に変わっちゃった（同じシャツを着てるけど、毛や顔が明らかに違う）。それに、クマを風船にした時、背景も変わっちゃって（舗装を消して）、スイカの左の種も失われてた。これはもっと良いプロンプトで修正できるのか、それともモデルやアーキテクチャの限界なのか？

└

これは、より良いプロンプトで解決できる問題なのか、それともモデルやアーキテクチャの限界なのか？両方だね。より良いプロンプトを使えば、より良い結果が得られるけど、その根本的な原因はアーキテクチャとトレーニング方法の限界にある（これは密接に関連してる）。

Hacker Newsで議論の続きを見る

ハクソク