Qwen3-Omni: テキスト、画像、動画用のネイティブオムニAIモデル

概要

Qwen3-Omni は、ネイティブなエンドツーエンド多言語・多モーダルAI基盤モデル
テキスト、画像、音声、動画など多様な入力を処理可能
出力はテキストと自然音声の両方でリアルタイムストリーミング対応
モデル設計に MoE（Mixture of Experts）ベースのThinker–Talker構造 を採用し、性能と効率性を両立
22/36の音声・動画ベンチマークでSOTA（最先端技術）を達成
Gemini 2.5 Proと同等のASR・音声理解・会話性能
119言語のテキスト、19言語の音声入力、10言語の音声出力に対応
- 音声入力例：English, Chinese, Japanese, Korean, German, French, Spanishなど
- 音声出力例：English, Chinese, Japanese, French, German, Spanishなど
低遅延ストリーミングと自然なターンテイクによるリアルタイム対話
システムプロンプトで挙動の細かなカスタマイズが可能
詳細な音声キャプションモデル Qwen3-Omni-30B-A3B-Captioner もOSSとして公開

Hugging Face Transformers、vLLM、DashScope APIなど複数の推論環境をサポート
- Hugging Face Transformersは MoEモデルのため推論速度が遅い 場合あり
- 低遅延や大規模運用には vLLM や DashScope API の利用を推奨
- Dockerイメージも提供、環境構築の手間を軽減

ModelScope（中国本土向け推奨）、Hugging Faceのどちらからでもダウンロード可能
- 例：modelscope download --model Qwen/Qwen3-Omni-30B-A3B-Instruct --local_dir ./Qwen3-Omni-30B-A3B-Instruct
- 例：huggingface-cli download Qwen/Qwen3-Omni-30B-A3B-Instruct --local-dir ./Qwen3-Omni-30B-A3B-Instruct

Transformersコードは GitHubリポジトリからソースインストール が必要（PyPI未公開）
- 新しいPython環境や提供Dockerの利用を推奨
- 例：pip install git+https://github.com/huggingface/transformers
補助ツールqwen-omni-utilsで音声・画像・動画の処理を簡便化
- 例：pip install qwen-omni-utils -U
GPUメモリ効率化のため FlashAttention 2 の利用を推奨
- vLLMではデフォルトでFlashAttention 2を内包