世界を動かす技術を、日本語で。

Qwen3-Omni: テキスト、画像、動画用のネイティブオムニAIモデル

概要

  • Qwen3-Omni は多言語・多モーダル対応の最新AI基盤モデル
  • テキスト・画像・音声・動画をリアルタイムで処理し、出力可能
  • モデル設計により高い性能と低遅延を実現
  • 119言語のテキスト、19言語の音声入力、10言語の音声出力をサポート
  • Hugging FaceやModelScopeなど多様なプラットフォームで利用可能

Qwen3-Omni:多言語・多モーダルAI基盤モデルの概要

  • Qwen3-Omni は、ネイティブなエンドツーエンド多言語・多モーダルAI基盤モデル
  • テキスト、画像、音声、動画など多様な入力を処理可能
  • 出力はテキストと自然音声の両方でリアルタイムストリーミング対応
  • モデル設計に MoE(Mixture of Experts)ベースのThinker–Talker構造 を採用し、性能と効率性を両立
  • 22/36の音声・動画ベンチマークでSOTA(最先端技術)を達成
  • Gemini 2.5 Proと同等のASR・音声理解・会話性能
  • 119言語のテキスト、19言語の音声入力、10言語の音声出力に対応
    • 音声入力例:English, Chinese, Japanese, Korean, German, French, Spanishなど
    • 音声出力例:English, Chinese, Japanese, French, German, Spanishなど
  • 低遅延ストリーミングと自然なターンテイクによるリアルタイム対話
  • システムプロンプトで挙動の細かなカスタマイズが可能
  • 詳細な音声キャプションモデル Qwen3-Omni-30B-A3B-Captioner もOSSとして公開

主な利用シナリオとクックブック

  • Qwen3-Omniは幅広いマルチモーダルアプリケーションシナリオに対応
    • オーディオ:音声認識、音声翻訳、音楽分析、効果音解析、音声キャプション生成、混合音声解析
    • ビジュアル:OCR、物体検出、画像Q&A、画像内数式解答
    • ビデオ:動画内容説明、ナビゲーションコマンド生成、シーン遷移分析
    • 音声+映像:オーディオビジュアルQ&A、対話、インタラクション
    • エージェント用途:音声による関数呼び出し
  • 各シナリオごとに 実行ログ付きのクックブック を提供

クイックスタートと推論環境

  • Hugging Face Transformers、vLLM、DashScope APIなど複数の推論環境をサポート
    • Hugging Face Transformersは MoEモデルのため推論速度が遅い 場合あり
    • 低遅延や大規模運用には vLLMDashScope API の利用を推奨
    • Dockerイメージも提供、環境構築の手間を軽減

モデルのダウンロード方法

  • ModelScope(中国本土向け推奨)、Hugging Faceのどちらからでもダウンロード可能
    • 例:modelscope download --model Qwen/Qwen3-Omni-30B-A3B-Instruct --local_dir ./Qwen3-Omni-30B-A3B-Instruct
    • 例:huggingface-cli download Qwen/Qwen3-Omni-30B-A3B-Instruct --local-dir ./Qwen3-Omni-30B-A3B-Instruct

Transformersによる利用方法

  • Transformersコードは GitHubリポジトリからソースインストール が必要(PyPI未公開)
    • 新しいPython環境や提供Dockerの利用を推奨
    • 例:pip install git+https://github.com/huggingface/transformers
  • 補助ツールqwen-omni-utilsで音声・画像・動画の処理を簡便化
    • 例:pip install qwen-omni-utils -U
  • GPUメモリ効率化のため FlashAttention 2 の利用を推奨
    • vLLMではデフォルトでFlashAttention 2を内包

サンプルコード(推論例)

  • 画像・音声・テキストの混在入力に対し、1文で内容を要約する例
  • 出力はテキストと音声(.wavファイル)で取得可能
  • 詳細なコード例は公式ドキュメントやクックブック参照

応用例・バッチ推論

  • テキスト、画像、音声、動画の混合バッチ推論に対応
  • return_audio=False設定で様々なタイプのサンプルを同時処理可能
  • 詳細なサンプルコードは公式クックブック参照

まとめ

  • Qwen3-Omni は多言語・多モーダルAIの最新基盤モデル
  • テキスト・画像・音声・動画を統合的に扱い、リアルタイム応答・高性能・低遅延を実現
  • 豊富なクックブックと多様な推論環境・ツールで、研究・開発・実運用まで幅広く対応
  • 詳細・最新情報は公式ブログ・ドキュメント・デモサイト参照

Hackerたちの意見

これがデモ動画だよ。音声入力から音声出力に翻訳する様子を見せる動画が、今まで見た中で一番印象的だった。 https://www.youtube.com/watch?v=_zdOrPju4_g

Qwenの思考/スピーカーアーキテクチャは本当に面白いね。人間のマルチモダリティがどう機能するか、私が想像してたのに近いと思う。つまり、リンゴの画像、"a p p l e"というテキスト、音が全部同じ概念にマッピングされる感じ。

それって、全てのLLMがそうじゃない?

モデルの重みは70GBだよ(Hugging Faceが最近ファイルサイズのインジケーターを追加したから、詳しくは見てみてね - https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct/tree...)。だから、ローカルで動かすにはかなりアクセスしやすいと思う。macOSのポートがすぐに出るか気になるな。今のところ、NVIDIAのGPUが必要みたいだけど。

もっと時間がある人にとって面白いプロジェクトになるのは、昨日の新しいMojoのやつを使って動かせるか試してみることだね。機能がまだ完全に整っているか分からないけど、試してみる価値はありそう。

それはBF16だから、量子化してQ4にしたら24GBのGPUにかなり合うと思うよ。(他の30B-A3Bモデルと同じように。)それについては結構嬉しい。200B以上になるんじゃないかと心配してたから。

これに対する推論エンジンってmacOSにある?

5090で動くかな?それとも複数のGPUをリンクすることは可能なの?NVIDIAがそれをロックダウンしちゃったの?

いいね。いくつかのシンプルな音声クリップを試してみたら、少なくとも楽器(ピアノ、ドラムなど)を認識できたよ。スピーチ以外の音声を認識するマルチモーダルLLMにあまり焦点が当たってないから、最新技術の深堀りを見てみたいな。

https://chat.qwen.ai/ で試してみて。GoogleかGitHubでサインインして(サインアウトしてるユーザーは音声モードが使えないよ)、その後音声アイコンをクリックしてね。いろんな声の選択肢があって面白いよ。例えば: Dylan - 北京の胡同で育ったティーンエイジャー Peter - 天津の落語家、他の人をプロとしてサポート Cherry - 明るくてポジティブな自然な女の子 Ethan - 陽気でエネルギッシュな男の子 Eric - 人混みの中で目立つ四川の成都の男性 Jada - 上海の情熱的なお姉さん

オムニフラッシュしか見当たらないけど、それがそのやつ?

声がすごく楽しいね、笑わせてもらったよ :)

音声入力と音声出力ってめっちゃ重要だよね。理論的には、声で話しかけて、相手の言語で返事したり、他の人のために翻訳したりできるんだ。今は、ウェイクワード、音声からテキスト、そしてテキストから音声に加えて、コアのLLMが必要なんだよね。いくつかのモデルは音声を入力したり出力したりできるけど、両方は無理みたい。どうやら、32bくらいの範囲で少なくとも3つのバリエーションがあるみたい。アーキテクチャによっては、数年後には自宅に置けるようになるか、高価な「AIトースター」に搭載されるかもしれないね。

言語学習には大きな勝利って感じだね、他に何もなくても。特に、アンスロスの人たちが手を出したら、ローカルで動かすのも可能そう。

これを自宅の自動化にツールコールで組み込むチャンスはめっちゃ大きいよね。ChatGPTがこの機能を追加してから、誰かが追いつくのを待ってたんだ。料理中みたいなハンズフリーのシチュエーションがたくさんあって、これがあれば最高だよ。「次のステップを読んでくれ、手が生の豚肉でベタベタなんだ」、「ルーには小麦粉をどれくらい使うの?」、「やばい、レモンがない、何で代用できる?」

面白いね、英語で会話してるときはペースがすごく遅く感じたけど、スペイン語で話すとすごく早く聞こえた。これらのモデルがリアルタイム翻訳やそれ以上のことができるようになるのは本当にすごい。アメリカのラボがオープンウェイトで競争しないと、中国がAI市場を握ることになるよ。プライバシーやデータ所有を気にするなら、アメリカ人は家に1000〜2000ドルのデバイスがあって、オープンな中国のモデルが動いてる状況になるかもね。なんてことだ!

まさに俺がやってることだよ。家に3090を2台置いてて、Qwen3を動かしてる。これがHome Assistantに繋がってて、esp32デバイスを音声サテライトとして使ってる。驚くほどうまく動いてるよ。

アメリカ人は家に1000〜2000ドルのデバイスがあって、オープンな中国モデルが動いてる状況になるかもね。それについては心配しなくていいと思うよ。政府がこの分野で中国の技術を禁止するのは、遅かれ早かれ確実だと思うし。ダウンロードすらできなくなるかも。禁止が理にかなってるとは言わないけど、これは「戦略的」な分野だって言うだろうね。そこからすべてが始まる。今のうちに中国のモデルをダウンロードしておいた方がいいよ。

平均的なアメリカ人がプライバシーを尊重するテクノロジーに1,000~2,000ドルのプレミアムを払うことなんて、今まであった?彼らはすでにIoTカメラを買うために20~200ドルを節約して、政府に家の中の音声や映像を令状なしで直接送ってるんだよ(RingとReolinkなど)。

アメリカのソフトウェアを動かすために中国製ハードウェアを買っていた過去10年(以上)の皮肉があるよね、今はその逆になってる。

「ネイティブビデオサポート」って実際には何を意味するの?ただ間隔をあけて撮った連続したフルフレーム画像を解釈するのが得意なだけで、速いイベントを見逃しちゃうのか、それとももっと複雑なことがあるの?

MBPでQ3-Nextを動かしてるけど、GPT4.1のパフォーマンスが出てるよ。これらのローカルモデルが今できることには驚かされるね。

ここでの本当のレバレッジポイントはパフォーマンスとサイズだよ。オープンウェイトのスペースで traction を得ることは、モデルが効率性を革新する必要があるってことを強制するんだ。つまり、オープンウェイトモデルはクローズドウェイトモデルが考えないようなレバレッジを得るかもしれない。もし集約されたクラスター推論メカニズムがあったら、同じH100サーバー上で8つの30Bモデルが1つの240Bモデルよりも精度でいつ勝てるかな。