概要
- Alibaba が開発した最新モデルファミリー Qwen3.5 の概要
- 多言語・マルチモーダル推論、長文コンテキスト対応
- Smallシリーズ を含む多様なパラメータ規模
- 推論・ファインチューニング・利用手順 の解説
- 最適なハードウェア要件・推論モード の選択指針
Qwen3.5 モデルファミリーの特徴
- Qwen3.5 はAlibabaが開発した 最新のマルチモーダルLLMファミリー
- Qwen3.5-35B-A3B、27B、122B-A10B、397B-A17B
- Smallシリーズ:0.8B、2B、4B、9B
- 強力な推論性能 と 多言語対応(201言語)
- 最大256K(262,144)トークンのコンテキストウィンドウ (YaRNで最大1Mまで拡張可能)
- エージェント的コーディング、画像認識、チャット、長文処理 に優れる
- 35B/27Bモデル は 22GB RAMのMac等 でも動作可能
- GGUF形式 (Unsloth Dynamic 2.0等)で配布、量子化アルゴリズム改善済み
- Unsloth Dynamic 2.0 による4bit量子化で重要レイヤーは8/16bitにアップキャスト
- ツールコーリングやチャットテンプレートの改善 により安定性向上
推論・ファインチューニングの基本
- GGUFファイル を Hugging Face 等からダウンロード
- llama.cpp 互換のバックエンドで高速ローカル推論
- GPU非搭載の場合 は
-DGGML_CUDA=OFFでビルド - llama.cpp の最新版はGitHubから取得
- GPU非搭載の場合 は
- Unsloth を用いたファインチューニングも可能
- 推論時はモデルファイルサイズ以上の合計メモリ(VRAM+RAM) を確保推奨
- メモリ不足時はSSD/HDDオフロード対応だが速度低下
モデル選択と推奨ハードウェア
- 推論用メモリ要件例
- 9Bモデル:12GB RAM/VRAM
- 27Bモデル:18GB RAM/VRAM
- 35Bモデル:24GB RAM/VRAM
- 122Bモデル:70GB RAM/VRAM
- 397Bモデル:256GB RAM/VRAM(4bit量子化時)
- 27Bと35B-A3Bの比較
- 27B :精度重視で省メモリ
- 35B-A3B :高速推論重視
推論モードとパラメータ設定
- 思考(Thinking)モード と 非思考(Non-thinking)モード の切替
- 一般タスク:思考モード(
temperature=0.7, top_p=0.8, presence_penalty=1.5等) - 精密コーディング:非思考モード(
temperature=1.0, top_p=0.95, presence_penalty=0.0等)
- 一般タスク:思考モード(
- Smallシリーズ(0.8B, 2B, 4B, 9B) はデフォルトで思考モード無効
- 有効化には
--chat-template-kwargs '{"enable_thinking":true}'を指定
- 有効化には
- 繰り返し防止 には
presence_penaltyを調整(高すぎると性能低下に注意)
GGUFダウンロードと推論手順
- pip install huggingface_hub hf_transfer でモデル取得
- llama.cpp での起動例(量子化タイプはQ4_K_M等を選択)
- Windows Powershell ではパラメータのクォートに注意
- LM Studio など統合UIでも利用可能
- 思考/非思考トグル が表示されない場合はyamlファイルを取得して設定
397B-A17Bモデルの運用ポイント
- Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同等性能
- フル精度で807GB、4bit量子化で214GB (256GB RAMで推論可能)
- MoEオフロードで24GB GPU + 256GB RAM環境にも対応
- 8bit精度は512GB RAM/VRAMが必要
まとめ・活用のヒント
- Qwen3.5 は多様な規模・用途に対応した先進的LLMファミリー
- 用途・ハードウェア・精度要件 に応じたモデル/量子化/推論設定を選択
- llama.cppやLM Studio でのローカル推論・ファインチューニングが容易
- 思考モード切替やパラメータ調整 で最適な出力制御が可能
- 最新情報・GGUFファイル・利用手順 は公式リポジトリやHugging Faceで随時更新
参考リンク・コマンド例・より詳細な利用手順 は公式リソースや各種GitHubページを参照