Qwen 3.6 27Bはローカル開発に最適なバランスです

2026年6月30日原文(quesma.com)

概要

Qwen 3.6 は、ローカルAIモデルとして初めて実用的な一般知能を実感できた体験
Mixture-of-Experts型 35B A3B と 高性能なDense型 27B の2種類を用意
llama.cppを使えば ローカル環境で簡単に動作可能
27Bモデルは 高品質かつ実用的な出力 を実現
今後もローカルモデルの進化と普及が期待される時代の到来

Qwen 3.6の驚きと評価

過去のローカルモデルに失望してきたが、Qwen 3.6は 初めて納得できる一般知能 体験
Mixture-of-Experts型 Qwen 3.6 35B A3B と、 Dense型 Qwen 3.6 27B の2種類を提供
- 35B A3Bは高速、27Bは 高性能 （推奨モデル）
モデルの動作時、 PCが非常に熱くなる （実際にサーモカメラで撮影）
Hacker News などで大きな話題に
「 punches above its weight」（期待以上の性能）という評価が多い

機能テストと創造的な活用例

Simon Willison 氏の「自転車に乗るペンギン」テストや、 制約付きライティング で性能検証
1年前は 高価なGPT-4.5 でしかできなかったタスクも、Qwen 3.6で実現
Zoukダンスと量子物理の8行詩 作成依頼にも、論理的かつ韻を踏んだ結果
OpenCode で「pnpmを使った六角形マインスイーパー」作成依頼も一発成功
- 35B A3Bは 速いが指示無視、27Bは 指示通り高品質

実務利用と日常タスク

日常的なタスク にも十分実用的な性能
短いプロンプトから リアクティブで適切な出力 を返す
現行最先端モデルと比べると地味 だが、実務レベルで十分

Qwen 3.6のローカル実行方法

llama.cpp を推奨、CLIで簡単に動作
Hugging Face から適切な量子化モデル（例：unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0）を取得
- 8-bit量子化で 容量半減・品質維持
llama-serverコマンド例:
- llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --jinja --port 8080
  - -hf: Hugging Faceからモデル取得
  - -ngl 999: 全層GPU使用
  - -fa on: Flash Attention有効
  - -c 65536: 64kトークン文脈長
  - --jinja: ツールコール対応
  - --port 8080: ポート指定
Webブラウザで http://127.0.0.1:8080 にアクセスしチャット可能
OpenCode との連携も簡単（設定例を記載）

パフォーマンス測定と他モデル比較

Macbook Max M5 128GB で各種テストを実施
27Bモデル（8bit量子化、llama.cpp+MTP）で 32トークン/秒、42GB RAM使用
35B A3Bは3倍速い が、27Bの方が 出力品質が高い
Nvidia RTXカード ではさらに高速動作
他のローカルモデル（DeepSeek V4 Flash、Gemma 4 31B等）と比較し、 Qwen 3.6 27Bが高評価

今後の展望とローカルAIの可能性

ローカルモデル運用が現実的な時代 の到来
プロプライエタリ最先端モデル の利用コストとリスク
ローカルモデル なら カスタマイズ・オフライン利用・プライバシー保護 が可能
GLM 5.2 などの更なる高性能オープンモデルも登場
今後は 知識と推論を分離したモデル や、 スマホで動く高性能AI の実現に期待

まとめ

Qwen 3.6 27B は、現時点でローカル動作可能な中で 最もバランスが取れた高品質AIモデル
llama.cpp を使えば誰でも簡単に体験可能
ローカルAIの進化により、 個人や企業のAI活用の幅が大きく広がる 可能性

Hackerたちの意見

... 私のMacbook Max M5 128GBでローカル開発って、誰のため？ 128GBのメモリを使ってる人、どれくらいいるの？ Appleのサイトを正しく読んでるなら、これって10,000ドルのラップトップなの？

└

1ヶ月前は10,000ドルじゃなかったよ。

└

でも、Qwen 3.6 27Bを動かすのにそんなに多くのRAMは必要ないよ。例えば、qwen3.6:27b-q4_K_Mはたった17GBだから。

└

笑、うちのM4 Proは24GBじゃ全然無理だな。

└

俺は128GBのRAMを搭載したStrix Haloを使ってる。数千CADでフレームワークのデスクトップを買った時、みんなが高いって言ってた頃だね。

└

27Bモデルは32GBのVRAMカード（例えば5090）や32GBのRAMを持つコンピュータでFP8/Q8で簡単に動くよ（unslothは28.6GBのQ8ファイルを持ってる）。24GBのVRAMカード（例えば4090）では、Q6_K（22.5GB）やQ5_K_M（19.5GB）の量子化を使って、RAMに一部の重みをオフロードすることもできる。

└

商業的に考えてみて。うちの会社はプライバシーが重要なお客さんが多いから、ローカルの rig に投資したし、時々はプライベートデータでこれらのモデルを使いたいんだ。

どの例も「リアルな仕事」を反映してないよね、少なくとも私が考えるリアルな仕事じゃない。ゼロショットのグリーンフィールドプロジェクトを成功させるのは、小さいモデルでも比較的簡単だし。構築するための文脈があまりないから、トレーニングデータの似たような例に簡単に戻れる。全く新しいものを発明するように頼まなければ、多分うまくいくよ。実際のテストは、既存のコードベースと一緒に使えるかどうかだと思う。私の限られた実験では、Qwen 3.5（もしかしたら3.6の方がずっと良いかも）がRust+Reactアプリではまあまあだったけど、C#のモノリスではあまり良くなかった。使えないほどではないけど、20分後にはClaudeに戻っちゃったよ。もしクラウドモデルへのアクセスを失ってQwenを使わなきゃならなくなったら、かなり悲しいだろうな。

└

限られた実験の中でQwen 3.5（もしかしたら3.6の方がずっと良いかも） 1. その限られた実験が何か教えてくれ。 2. 実際に3.6を試してみるべきだよ、ほとんどの場合で大きな違いがあるから。量子化とスコープも忘れずに教えてね。 3. この…雰囲気コメントじゃなくて、フロンティアモデルと比較したデータを見せてくれ。論理や証拠が必要ないHNのこういうコメントにはもううんざりだよ。雰囲気だけ。みんなが当たり前に思ってるペリカンが自転車に乗ってるみたいなクソ話だけど、良さを客観的に評価する方法がない。

└

自分の経験では、基本的なプロジェクトのコンセプトでも小さいモデルは新しいものを作るのが苦手だよ。決めなきゃいけないことが多すぎて、そっちには向いてない。既存のコードを修正するのは、賢くやろうとしなければずっと簡単だよ。「X機能を追加して」なんて言わずに、関連するファイルを指示して「このコードにX機能を追加するのが目標で、Yガイドラインに従ってね」って言うんだ。これで決定する一番難しい部分は終わって、あとは指示に従って線の中で色を塗るだけだよ。

└

ゼロショットのグリーンフィールドプロジェクトを成功させるのは、小さなモデルでも比較的簡単だよねあなたのコメントにはあまり関係ないけど、PoCを立ち上げるのに1週間かかっていた時代を思い出すと、私が年寄りに聞こえないことを願うよ。そして、あなたのような発言は純粋にSFだった。

└

ローカルモデルは使ってないけど、https://github.com/DeusData/codebase-memory-mcpみたいなコードインテリジェンスMCPでモデルを強化するの試したことある？

Hacker Newsで議論の続きを見る

ハクソク