概要
- Qwen3-Omni は多言語・多モーダル対応の最新AI基盤モデル
- テキスト・画像・音声・動画をリアルタイムで処理し、出力可能
- モデル設計により高い性能と低遅延を実現
- 119言語のテキスト、19言語の音声入力、10言語の音声出力をサポート
- Hugging FaceやModelScopeなど多様なプラットフォームで利用可能
Qwen3-Omni:多言語・多モーダルAI基盤モデルの概要
- Qwen3-Omni は、ネイティブなエンドツーエンド多言語・多モーダルAI基盤モデル
- テキスト、画像、音声、動画など多様な入力を処理可能
- 出力はテキストと自然音声の両方でリアルタイムストリーミング対応
- モデル設計に MoE(Mixture of Experts)ベースのThinker–Talker構造 を採用し、性能と効率性を両立
- 22/36の音声・動画ベンチマークでSOTA(最先端技術)を達成
- Gemini 2.5 Proと同等のASR・音声理解・会話性能
- 119言語のテキスト、19言語の音声入力、10言語の音声出力に対応
- 音声入力例:English, Chinese, Japanese, Korean, German, French, Spanishなど
- 音声出力例:English, Chinese, Japanese, French, German, Spanishなど
- 低遅延ストリーミングと自然なターンテイクによるリアルタイム対話
- システムプロンプトで挙動の細かなカスタマイズが可能
- 詳細な音声キャプションモデル Qwen3-Omni-30B-A3B-Captioner もOSSとして公開
主な利用シナリオとクックブック
- Qwen3-Omniは幅広いマルチモーダルアプリケーションシナリオに対応
- オーディオ:音声認識、音声翻訳、音楽分析、効果音解析、音声キャプション生成、混合音声解析
- ビジュアル:OCR、物体検出、画像Q&A、画像内数式解答
- ビデオ:動画内容説明、ナビゲーションコマンド生成、シーン遷移分析
- 音声+映像:オーディオビジュアルQ&A、対話、インタラクション
- エージェント用途:音声による関数呼び出し
- 各シナリオごとに 実行ログ付きのクックブック を提供
クイックスタートと推論環境
- Hugging Face Transformers、vLLM、DashScope APIなど複数の推論環境をサポート
- Hugging Face Transformersは MoEモデルのため推論速度が遅い 場合あり
- 低遅延や大規模運用には vLLM や DashScope API の利用を推奨
- Dockerイメージも提供、環境構築の手間を軽減
モデルのダウンロード方法
- ModelScope(中国本土向け推奨)、Hugging Faceのどちらからでもダウンロード可能
- 例:
modelscope download --model Qwen/Qwen3-Omni-30B-A3B-Instruct --local_dir ./Qwen3-Omni-30B-A3B-Instruct - 例:
huggingface-cli download Qwen/Qwen3-Omni-30B-A3B-Instruct --local-dir ./Qwen3-Omni-30B-A3B-Instruct
- 例:
Transformersによる利用方法
- Transformersコードは GitHubリポジトリからソースインストール が必要(PyPI未公開)
- 新しいPython環境や提供Dockerの利用を推奨
- 例:
pip install git+https://github.com/huggingface/transformers
- 補助ツール
qwen-omni-utilsで音声・画像・動画の処理を簡便化- 例:
pip install qwen-omni-utils -U
- 例:
- GPUメモリ効率化のため FlashAttention 2 の利用を推奨
- vLLMではデフォルトでFlashAttention 2を内包
サンプルコード(推論例)
- 画像・音声・テキストの混在入力に対し、1文で内容を要約する例
- 出力はテキストと音声(.wavファイル)で取得可能
- 詳細なコード例は公式ドキュメントやクックブック参照
応用例・バッチ推論
- テキスト、画像、音声、動画の混合バッチ推論に対応
return_audio=False設定で様々なタイプのサンプルを同時処理可能- 詳細なサンプルコードは公式クックブック参照
まとめ
- Qwen3-Omni は多言語・多モーダルAIの最新基盤モデル
- テキスト・画像・音声・動画を統合的に扱い、リアルタイム応答・高性能・低遅延を実現
- 豊富なクックブックと多様な推論環境・ツールで、研究・開発・実運用まで幅広く対応
- 詳細・最新情報は公式ブログ・ドキュメント・デモサイト参照