概要
- Qwen 3.6 は、ローカルAIモデルとして初めて実用的な一般知能を実感できた体験
- Mixture-of-Experts型 35B A3B と 高性能なDense型 27B の2種類を用意
- llama.cppを使えば ローカル環境で簡単に動作可能
- 27Bモデルは 高品質かつ実用的な出力 を実現
- 今後もローカルモデルの進化と普及が期待される時代の到来
Qwen 3.6の驚きと評価
- 過去のローカルモデルに 失望 してきたが、Qwen 3.6は 初めて納得できる一般知能 体験
- Mixture-of-Experts型 Qwen 3.6 35B A3B と、 Dense型 Qwen 3.6 27B の2種類を提供
- 35B A3Bは 高速、27Bは 高性能 (推奨モデル)
- モデルの動作時、 PCが非常に熱くなる (実際にサーモカメラで撮影)
- Hacker News などで大きな話題に
- 「 punches above its weight」(期待以上の性能)という評価が多い
機能テストと創造的な活用例
- Simon Willison 氏の「自転車に乗るペンギン」テストや、 制約付きライティング で性能検証
- 1年前は 高価なGPT-4.5 でしかできなかったタスクも、Qwen 3.6で実現
- Zoukダンスと量子物理の8行詩 作成依頼にも、論理的かつ韻を踏んだ結果
- OpenCode で「pnpmを使った六角形マインスイーパー」作成依頼も一発成功
- 35B A3Bは 速いが指示無視、27Bは 指示通り高品質
実務利用と日常タスク
- 日常的なタスク にも十分実用的な性能
- 短いプロンプトから リアクティブで適切な出力 を返す
- 現行最先端モデルと比べると地味 だが、実務レベルで十分
Qwen 3.6のローカル実行方法
- llama.cpp を推奨、CLIで簡単に動作
- Hugging Face から適切な量子化モデル(例:unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0)を取得
- 8-bit量子化で 容量半減・品質維持
- llama-serverコマンド例:
- llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --jinja --port 8080
- -hf: Hugging Faceからモデル取得
- -ngl 999: 全層GPU使用
- -fa on: Flash Attention有効
- -c 65536: 64kトークン文脈長
- --jinja: ツールコール対応
- --port 8080: ポート指定
- llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --jinja --port 8080
- Webブラウザで http://127.0.0.1:8080 にアクセスしチャット可能
- OpenCode との連携も簡単(設定例を記載)
パフォーマンス測定と他モデル比較
- Macbook Max M5 128GB で各種テストを実施
- 27Bモデル(8bit量子化、llama.cpp+MTP)で 32トークン/秒、42GB RAM使用
- 35B A3Bは3倍速い が、27Bの方が 出力品質が高い
- Nvidia RTXカード ではさらに高速動作
- 他のローカルモデル(DeepSeek V4 Flash、Gemma 4 31B等)と比較し、 Qwen 3.6 27Bが高評価
今後の展望とローカルAIの可能性
- ローカルモデル運用が現実的な時代 の到来
- プロプライエタリ最先端モデル の利用コストとリスク
- ローカルモデル なら カスタマイズ・オフライン利用・プライバシー保護 が可能
- GLM 5.2 などの更なる高性能オープンモデルも登場
- 今後は 知識と推論を分離したモデル や、 スマホで動く高性能AI の実現に期待
まとめ
- Qwen 3.6 27B は、現時点でローカル動作可能な中で 最もバランスが取れた高品質AIモデル
- llama.cpp を使えば誰でも簡単に体験可能
- ローカルAIの進化により、 個人や企業のAI活用の幅が大きく広がる 可能性