世界を動かす技術を、日本語で。

Qwen VLo: 世界を「理解する」から「描写する」へ

概要

  • Qwen VLo は、画像理解と生成を統合した最新のマルチモーダルモデル
  • 自然言語指示 で画像生成・編集が可能、柔軟性と精度が大幅向上
  • 多言語対応 や動的解像度など、実用性と汎用性を強化
  • 進化した生成プロセス で芸術的・技術的な創作を支援
  • 現在プレビュー版として Qwen Chat で利用可能

Qwen VLo:統合型マルチモーダル理解・生成モデル

  • Qwen VLo は、画像の「理解」と「生成」を同時に実現する統合型モデル
  • 進化した Qwen2.5 VL の後継として、より高精度な画像内容把握と再現を実現
  • 画像生成は 左から右・上から下 へ段階的に進行、リアルタイムで最適化
  • ユーザーは「可愛い猫の画像を生成」や「猫の頭に帽子を追加」など、 自然言語指示 で操作可能
  • Qwen Chat を通じてプレビュー版が公開中

クリエイティブプロセス:想像力を現実へ

  • 段階的生成方式 により、画像の一貫性と高品質を両立
  • 生成途中での細やかな修正や調整が可能、 柔軟な創作体験 を提供
  • ユーザーのイマジネーションを直感的にビジュアル化

マルチモーダル生成能力の強化

  • 詳細把握力 の向上で、画像内容の誤認や構造崩壊を大幅に低減
  • 例:車の写真に「色を変えて」と指示→車種や形状を維持しつつ自然な色変更
  • 芸術的スタイル変換 やシーン再構築、細部の修正も自然言語で簡単指示
  • 1回の指示で 複数の編集操作 (背景変更・物体追加・テキスト編集など)に対応
  • 深度マップ・セグメンテーション・エッジ検出 などの視覚認識タスクも指示で実行

多言語指示対応

  • 中国語・英語 など多言語対応、グローバルなユーザー体験を実現
  • 言語の壁を越えて直感的な操作が可能

デモケース

  • 画像生成・編集 :背景差し替え、被写体追加、スタイル転換、複雑な指示による大規模編集
  • スタイル変換 :アニメ→リアル、人物→バルーンなど多様な変換
  • 複数操作同時実行 :ポスター作成やオブジェクト合成など、一括指示で完結
  • 画像情報のアノテーション :検出・セグメンテーション・エッジ抽出など
  • 複数画像入力 (今後対応予定)、 動的アスペクト比 での画像生成(例:4:1, 1:3等、近日公開)

生成と理解の相互作用

  • 生成した画像の再解析・理解 が可能(例:犬や猫の品種判別)
  • テキスト・画像の両入力に対応、ポスターやバナーなど多様な用途に最適化

利用方法

  • 動的解像度トレーニング で、任意の解像度・アスペクト比に対応
  • ポスター・イラスト・Webバナー・SNSカバーなど多様なフォーマットに適応
  • 革新的生成機構 :上から下・左から右へ段階的生成、リアルタイム調整が可能
    • 長文テキスト入り画像(広告・コミックパネル等)にも最適

制限事項(プレビュー版)

  • 生成結果に 不正確さ・一貫性の欠如・指示不履行 などの問題が発生する場合あり
  • モデルの意図理解や安定性に今後も改善を継続

今後の展望:画像で表現し、生成で理解を深める

  • 双方向テキスト・画像入出力 による新たな表現・対話手段の創出
  • 図表生成、補助線追加、注釈付与など多様なコミュニケーションツールへの発展
  • 中間生成結果(セグメンテーション・検出マップ等) を活用した自己理解・性能向上
  • 今後も 多様な生成・理解タスク への対応を拡充予定

Hackerたちの意見

オープンウェイトがないのは残念だね。Qwenの強みの一つはオープンウェイト戦略だったから、4oの自己回帰型画像生成に対抗できる本当のオープンウェイトの競争相手がいたらよかったのに。ウェイトにアクセスできれば、面白い研究の方向性がたくさんあるのに。もしQwenが開発コストの回収を気にしているなら、最近のBFLのFlux Kontext Devのリリースをモデルにしてみるといいよ。研究者や個人には無料でウェイトを提供して、スタートアップには商業利用のためにリーズナブルなライセンス料を払わせるっていう感じで。

それに、明らかにOAIの出力で訓練されてるのがわかる。画像のオレンジ色の tint からね。自分たちのデータを作ろうとしたのかな?つまり、OAIから訓練されてるってことだし、OAIと同じくらい閉じられていて、最も重要なのはOAIよりも劣ってるってこと。これをAPIの背後に隠すなんて、なんて奇妙な戦略なんだ。

Qwenの強みの一つは、歴史的にオープンウェイト戦略だったんだよね。> 研究者や個人は無料でウェイトを手に入れられて、スタートアップは商業利用のために手頃なライセンス料を払う。 でも、オープンウェイトを提案してるなら、みんなが自由に使えるべきじゃない? 実質的には「トライアルウェイト」や「シェアウェアウェイト」、「アカデミックウェイト」みたいな感じで、オープンウェイトって言っても「オープンソース」ソフトウェアのように自由に使えるわけじゃないってことだよね。もし「オープンソース」の本質である「好きなように使える」部分が欠けてたら、ちょっと誤解を招くかも。

中国のオープンウェイトの時代は、何か理由があって終わったみたいだね。急に来た感じで、なんか調整されてるみたい。アリババはQwenのリリースを止めたし、テンセントはフンユアンのリリースを止めた。バイトダンスはSeedreamをリリースしたけど、これはクローズドだし、もう終わりっぽい。とはいえ、彼らはまだ西洋の成果に基づいてトレーニングしてるみたい。戦略的には100%オープンになって、インフラやサービスを売るのがいいんじゃないかと思ってる。

Qwenの強みの一つは、歴史的にオープンウェイト戦略だったんだよね。> 研究者や個人は無料でウェイトを手に入れられて、スタートアップは商業利用のために手頃なライセンス料を払う。 個人的には、企業が何千万ドルもの投資やGPU時間、エンジニアの給料を画像生成の料金から回収できるとは思えないな。

これに関する技術報告書や、似たような方法で画像を生成する他のモデルの報告書って誰か知ってる?4oのような画像生成の背後にあるアーキテクチャを理解したいんだ。

俺の目には、これらの画像はすべて不気味の谷に入ってるように見える。色合いや影がちょっとおかしいんだよね。

みんな本当に雑だね。この手の出力の使い道は研究以外にはあまり見当たらない。

定番のペリカンが自転車に乗ってる画像(SVGじゃなくて画像ね)といくつかのアコーディオンの画像を試してみた。指の描写や黒鍵の再現にちょっと苦労してるみたい。結構速いよ。

サイモンのテストのポイントを見逃してるかも?自転車に乗ったペリカンの絵をAIが描くのは、Stable Diffusion 2/3の間に解決された問題なんだよ。ピクセルベースのフォーマットではなくSVGを使うことが挑戦の所在で、SVGを正しくするためにはある程度の推論が必要なんだ。

クマの画像を編集する例を見てたら、モデルが厳密に求められた以上のことを変えてるように見えた。例えば、背景を変えてって頼んだら、クマも完全に変わっちゃった(同じシャツを着てるけど、毛や顔が明らかに違う)。それに、クマを風船にした時、背景も変わっちゃって(舗装を消して)、スイカの左の種も失われてた。これはもっと良いプロンプトで修正できるのか、それともモデルやアーキテクチャの限界なのか?

これは、より良いプロンプトで解決できる問題なのか、それともモデルやアーキテクチャの限界なのか?両方だね。より良いプロンプトを使えば、より良い結果が得られるけど、その根本的な原因はアーキテクチャとトレーニング方法の限界にある(これは密接に関連してる)。

自動読み上げを止めるにはどうすればいいの?ウェブサイトはただそこにいて、何かを頼むまで待っててくれればいいのに。全画面で動画が自動再生されて、その後に読み上げ始めるってどういうこと?iOSのFirefoxでの話ね。

設定 => サイト設定 => 自動再生:音声と動画をブロック これはFF Androidでの話だけど、iOS版に同じ機能があるかはわからない。デスクトップでも同じことができるよ。通知を送るように求めてくるウェブサイトを完全にブロックすることもできる。

画像は言語モデルが見る前に256トークンに圧縮される。帽子を追加してって頼むと、顔全体を再描画する。物体が別々のものとして保存されてないから。記憶の中に持続的なクマはいないんだ。一つの融合した潜在的なスープの中にすべてが存在してる。新しい制約の下での新鮮なサンプルだよ。プロンプトを少し変えるだけで、全体の埋め込みが再バランスされる。だから、ちょっとした変更でも画像全体に影響が出るんだ。俺はこれを単発のシーン合成みたいに感じるけど、これは別の用途にはいいかもね。

Flux Kontextが好きなのは、マルチモーダルモデルと似た編集機能があるけど、細かいところを壊さないところだね。gpt-image-1での編集は「これをジブリ風にして」みたいな完全なスタイル変更には効果的だけど、フォトリアルな画像に眼鏡を追加しても細部が保たれるわけじゃない。

むしろ、機械学習は「理解する」よりも「描写する」ことにずっと進歩してると思う。

なんで人間が世界をもっと理解してると思う? 世界に対する感情はあるけど、感情は理解を与えてくれるわけじゃない。「理解」ってのはまだ定義が必要なものだし。「わかる」ってのは、実際にはただの恣意的な個人の基準に過ぎない。

ML研究者で物理学の学位を持ってるけど、これらのモデルについて「理解する」や「描写する」って言葉を使うのにはすごくためらいがある。言葉が役に立たないと思うし、正直言ってほとんどが嫌悪感を抱く。物理学で数学を使う理由はその特異性にある。コーディングが難しいのも同じ理由だよね。人々は自分たちがどれだけ理解しているかを過小評価してると思う。重要なのはニュアンスなんだ。細かいところがたくさんあって、私たちにとっては普通のことだから、その重要性を忘れがちなんだよね。歩いている地面を忘れるようなもんだ。みんなが読むべきだと思うのはアシモフの「間違いの相対性」だよ。これが、私たちがこれらのシステムに求めるものなんだ。推論や帰納を見たい。概念やアイデアを洗練できるように。彼らが取り込んだものの組み合わせ以上のことを発見できるように。ここで本当に難しいのは、私たちが人間の知識全体でこれらをトレーニングしていて、その知識をただ繰り返すだけでは知性を示さないことなんだ。彼らがその知識を損失なく圧縮することはまずないだろうし、そのデータを深く調査しないと、何を知っていて何を記憶しているのかを理解するのは難しい。実際、これは知性を作ろうとするには非常に貧弱な方法だし、少なくとも知性を作ってそれが知性だとわかることにはならない。物事を本当に「理解する」ためには、反実仮想を提案できる必要がある。物理学の命題はすべて反実仮想の命題なんだ。F=maを簡単な例に取ろう。質量や加速度を自由に変更しても、力を決定できる。特定の質量が特定の加速度で動いているのを観察して、「もしそれが2倍の重さだったら?」って反実仮想を考えることができる。それに答えられるんだ! 実際、あなたの世界のメンタルモデルもこれをやってる!数学で説明してるわけじゃないかもしれないけど、反実仮想を提案できてるし、かなりうまくやってることが多い。常に正しい必要はないけどね。私たちの頭の働き方はこういうシステムを通じてなんだ。これを夢見たり、遊びながら想像したり、色々なことをしてる。これに関しては、現代のML(AI)システムがやってるとは言えない。== 編集 == 理解が欠けている良い例は、OPが使ってる画像だね。右側は指の本数が間違ってるだけじゃなくて、キーボードの鍵も見てみて。繰り返しのキーがあるのはおかしいって認識するのに、そんなに理解は必要ないよね…構成もおかしいし、すぐに夢だとわかるような夢の一つみたい。キーの数がマーカーの数と合ってないし、サイズも明らかにおかしい。見るほどにどんどん悪くなっていくし、これらのシステムにはよくあることだね。ぱっと見はいいけど、じっくり見ると不気味の谷に深く入っていく。

物を作る人間として、こういうストローマンにはうんざりだわ。入力と出力を表すのに広く理解されている言葉を選んでくれたのは助かるね。彼らは、用語の長期的な影響について過度に大げさな主張をしていないことを示すために、わざわざ「」を使ってるし。リリースを読む人は、以前のQwenが理解したり見たりすることができるVLMを持っていて、今は画像を生成できるようになったってことを学ぶだろう。描写したり描いたりすることができるってね。これ以上の危機を発明する必要はないよ。

不思議なことに、画像の変更例(編集やスタイル転送など)には、GPT Image 1(ChatGPT 4oの最新の画像モデル)が持っている微妙な黄色い色合いがあるんだよね。なんでだろう?Flux Kontextはそんなことしないみたい。