ハクソク

世界を動かす技術を、日本語で。

Qwen 3.5をローカルで実行する方法

2026年3月8日原文(unsloth.ai)

概要

Alibaba が開発した最新モデルファミリー Qwen3.5 の概要
多言語・マルチモーダル推論、長文コンテキスト対応
Smallシリーズ を含む多様なパラメータ規模
推論・ファインチューニング・利用手順 の解説
最適なハードウェア要件・推論モード の選択指針

Qwen3.5 モデルファミリーの特徴

Qwen3.5 はAlibabaが開発した 最新のマルチモーダルLLMファミリー
- Qwen3.5-35B-A3B、27B、122B-A10B、397B-A17B
- Smallシリーズ：0.8B、2B、4B、9B
強力な推論性能 と 多言語対応（201言語）
最大256K（262,144）トークンのコンテキストウィンドウ （YaRNで最大1Mまで拡張可能）
エージェント的コーディング、画像認識、チャット、長文処理 に優れる
35B/27Bモデル は 22GB RAMのMac等 でも動作可能
GGUF形式 （Unsloth Dynamic 2.0等）で配布、量子化アルゴリズム改善済み
Unsloth Dynamic 2.0 による4bit量子化で重要レイヤーは8/16bitにアップキャスト
ツールコーリングやチャットテンプレートの改善 により安定性向上

推論・ファインチューニングの基本

GGUFファイル を Hugging Face 等からダウンロード
llama.cpp 互換のバックエンドで高速ローカル推論
- GPU非搭載の場合 は-DGGML_CUDA=OFFでビルド
- llama.cpp の最新版はGitHubから取得
Unsloth を用いたファインチューニングも可能
推論時はモデルファイルサイズ以上の合計メモリ（VRAM+RAM） を確保推奨
- メモリ不足時はSSD/HDDオフロード対応だが速度低下

モデル選択と推奨ハードウェア

推論用メモリ要件例
- 9Bモデル：12GB RAM/VRAM
- 27Bモデル：18GB RAM/VRAM
- 35Bモデル：24GB RAM/VRAM
- 122Bモデル：70GB RAM/VRAM
- 397Bモデル：256GB RAM/VRAM（4bit量子化時）
27Bと35B-A3Bの比較
- 27B ：精度重視で省メモリ
- 35B-A3B ：高速推論重視

推論モードとパラメータ設定

思考（Thinking）モード と 非思考（Non-thinking）モード の切替
- 一般タスク：思考モード（temperature=0.7, top_p=0.8, presence_penalty=1.5等）
- 精密コーディング：非思考モード（temperature=1.0, top_p=0.95, presence_penalty=0.0等）
Smallシリーズ（0.8B, 2B, 4B, 9B） はデフォルトで思考モード無効
- 有効化には--chat-template-kwargs '{"enable_thinking":true}'を指定
繰り返し防止 にはpresence_penaltyを調整（高すぎると性能低下に注意）

GGUFダウンロードと推論手順

pip install huggingface_hub hf_transfer でモデル取得
llama.cpp での起動例（量子化タイプはQ4_K_M等を選択）
Windows Powershell ではパラメータのクォートに注意
LM Studio など統合UIでも利用可能
- 思考/非思考トグル が表示されない場合はyamlファイルを取得して設定

397B-A17Bモデルの運用ポイント

Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同等性能
フル精度で807GB、4bit量子化で214GB （256GB RAMで推論可能）
MoEオフロードで24GB GPU + 256GB RAM環境にも対応
8bit精度は512GB RAM/VRAMが必要

まとめ・活用のヒント

Qwen3.5 は多様な規模・用途に対応した先進的LLMファミリー
用途・ハードウェア・精度要件 に応じたモデル/量子化/推論設定を選択
llama.cppやLM Studio でのローカル推論・ファインチューニングが容易
思考モード切替やパラメータ調整 で最適な出力制御が可能
最新情報・GGUFファイル・利用手順 は公式リポジトリやHugging Faceで随時更新

参考リンク・コマンド例・より詳細な利用手順 は公式リソースや各種GitHubページを参照

Hackerたちの意見

35B-A3Bモデルを8GBのRTX 3050で動かしてみたけど、かなり実用的だよ。反応も良いし、やらせたコーディングタスクもちゃんとこなしてくれてる。新しく更新されたモデルを手に入れないとね。古いモデルはツール使用時に時々ループにはまることがあるみたいで、修正されたって言ってた。

└

どんなコーディングタスクの例を教えてくれる？ローカルがそんなに良いとは思わなかったよ。

└

それはどのモデルのこと？

└

システムRAMにオフロードしてるの？トークン/秒はどれくらい出てる？RTX 3060の古いゲーミングノートパソコンがあるんだけど、ローカル推論サーバーとしてうまくいきそうだね。

Qwen3.5 9bは、CPUのllama.cppで動かすとOCRやテキストフォーマットのクリーンアップがかなりできるみたいだけど、ちょっと遅いね。ただ、いろんな方法でコンパイルしてみたけど、GPUオフロードがうまく動かない（Ollamaではできたのに）、古い1650 Tiで4GBのVRAMを使ってると、メモリを取りすぎようとするんだ。

└

1660tiを使ってるけど、cachyos + aur/llama.cpp-cudaパッケージは問題なく動いてるよ。使えるメモリが約5.3GBで、35Bモデルが圧倒的に能力が高くて、GPUに完全に収まる4Bモデルと同じくらいの速さで動く。9Bモデルも試してみたけど、意外と能力が高かった。ただ、35Bの方が自分のテストケースではまだ良かった。改善に満足してるよ。ただ、qwen 3.5はqwen 3の半分の速度だって気づいた。

└

ソースからビルドするなら、Vulkanバックエンドが一番簡単にビルドできて、GPUオフロードにも使いやすいよ。

ASUSの5070ti 16Gでlm studioを使って3.5 9Bを動かすと、安定して約100トークン/秒出るよ。これ、ほとんどのオンラインLLMサービスを上回ってるし、出力の質もベンチマークに合ってる。これまで消費者向けハードウェアで使えるモデルを持ったのは初めてだよ。

└

claudeのコードをこれに向けてるの？オーケストレーションがすごく重要みたいだね。

└

どのモデル使ってるの？俺も16GBのGPU持ってるけど、今までローカルモデルは使ったことないんだ。記事の表によると、9Bと8ビットは13GB、27Bと3ビットはメモリに収まりそうなんだけど、コンテキストとかでさらにスペースが必要なのかな？

└

Qwen3.5の27B量子化版があって、重みあたり4ビットで16GのVRAMに収まるよ。品質は2025年夏のSonnet 4.0に匹敵するし、ik_llama.cppでの推論速度はすごく良い。メインのllama.cppでもまあまあ decent だよ。

└

これはほとんどのオンラインLLMサービスを上回ると思うけど、同じモデルでの速度のことを言ってるんだよね。他のもっと能力のあるモデルと比べての使いやすさではないと思うけど。（ローカルLLMがSonnetやOpusの代わりになると期待してる人たちに向けて。）

Hacker Newsで議論の続きを見る