概要
whichllm は、あなたのPCの GPU/CPU/RAM を自動検出し、HuggingFace上の最適なローカルLLMをランキング。 モデルの実際の ベンチマーク品質 で順位付けし、単なるサイズでは選ばない。 ワンコマンド で自動判定・チャット開始・Pythonコード出力も可能。 GPUシミュレーション やハードウェア逆引きも対応。 公式サイト・GitHub で詳細とインストール方法を案内。
whichllm:最適なローカルLLM自動選定ツール
-
whichllm は、PCの ハードウェア構成 (GPU/CPU/RAM)を自動検出し、 HuggingFace上の 最新・高品質なローカルLLM を自動ランキングするCLIツール
- NVIDIA, AMD, Apple Silicon, CPU専用も対応
- VRAMや速度、ベンチマークスコアで総合評価
-
ベンチマーク品質重視 のランキング
- LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO, Open LLM Leaderboard等の 実測値 を統合
- モデルサイズや新旧、量子化による品質低下も考慮
- 証拠グレード (直系/派生/自己申告等)によるスコア調整
-
ワンコマンドで即実行
- whichllm run で 最適モデルを自動ダウンロード・チャット開始
- whichllm snippet で 即利用できるPythonコード を出力
- Ollama等外部ツール連携 も可能
-
ハードウェアプランニング・シミュレーション
- --gpu "RTX 4090"等で 購入前にシミュレート
- planコマンドで「このモデルにはどのGPUが必要?」も逆引き可能
-
JSON出力・パイプ連携
- --jsonオプションで スクリプトや他ツールと連携しやすい
使い方・コマンド例
-
自動検出&最適モデル表示
- whichllm
-
GPUシミュレーション
- whichllm --gpu "RTX 4090"
- whichllm --gpu "RTX 5090"
-
CPUのみモード
- whichllm --cpu-only
-
上位20件表示やフィルタ
- whichllm --top 20
- whichllm --quant Q4_K_M
- whichllm --min-speed 30
-
証拠グレード指定
- whichllm --evidence base
- whichllm --evidence strict
-
JSON出力
- whichllm --json
-
ハードウェア情報のみ
- whichllm hardware
-
逆引き:必要GPUを調べる
- whichllm plan "llama 3 70b"
- whichllm plan "Qwen2.5-72B" --quant Q8_0
-
チャット開始
- whichllm run "qwen 2.5 1.5b gguf"
- whichllm run # 自動選択
-
Pythonコードスニペット出力
- whichllm snippet "qwen 7b"
- whichllm snippet "llama 3 8b gguf" --quant Q5_K_M
スコアリング・ランキングロジック
-
スコア0-100 で各モデルを評価
- ベンチマーク品質(複数ソース統合+信頼度補正)
- モデルサイズ(知識量の指標)
- 量子化(低bitは減点)
- 証拠信頼度(直系>派生>自己申告)
- 実行適合度(VRAM/CPU/部分オフロード)
- 推論速度(tok/s)
- ソース信頼性(公式/非公式)
- 人気・ダウンロード数(同点時のタイブレーク)
-
証拠グレード
- direct(完全一致)/ variant(派生)/ base_model(ベース一致)/ line_interp(補間)/ self_reported(自己申告)
- ファミリー内で2倍以上サイズ差がある場合はスコア継承を拒否
-
ベンチマーク日付も明示
- 古いリーダーボードのスコアは自動減点、 新世代優先
インストール方法
-
uv推奨
- uv tool install whichllm
-
Homebrew
- brew tap Andyyyy64/whichllm
- brew install whichllm
-
pip
- pip install whichllm
-
開発版
- git clone https://github.com/Andyyyy64/whichllm.git
- cd whichllm
- uv sync --dev
- uv run whichllm
対応フォーマット・実行環境
-
GGUF (llama-cpp-python、軽量高速)
-
AWQ / GPTQ (transformers + autoawq / auto-gptq)
-
FP16 / BF16 (transformers)
-
NVIDIA, AMD, Apple Silicon, CPU 自動検出
-
Linux+NVIDIA はAWQ/GPTQも利用可能
-
Apple Silicon/CPU はGGUF推奨
代表的なモデル・ハードウェア例(2026-05時点)
| ハードウェア | VRAM | 推奨モデル | 速度 | |---------------------|---------|-----------------------------------|-----------| | RTX 5090 | 32GB | Qwen3.6-27B · Q6_K · score 94.7 | ~40 t/s | | RTX 4090 / 3090 | 24GB | Qwen3.6-27B · Q5_K_M · score 92.8 | ~27 t/s | | RTX 4060 | 8GB | Qwen3-14B · Q3_K_M · score 71.0 | ~22 t/s | | Apple M3 Max | 36GB | Qwen3.6-27B · Q5_K_M · score 89.4 | ~9 t/s | | CPUオンリー | - | gpt-oss-20b (MoE) · Q4_K_M · 45.2 | ~6 t/s |
便利な連携例
-
Ollamaと組み合わせて最適モデル即実行
- whichllm --top 1 --json | jq -r '.models[0].model_id' | xargs ollama run
-
シェルエイリアス例
- alias bestllm='whichllm --top 1 --json | jq -r ".models[0].model_id"'
- ollama run $(bestllm)
開発・貢献
- Python 3.11+ 必須
- NVIDIA/AMD/Apple Silicon/CPU検出 は自動
- 詳細なプロジェクト構造・キャッシュ設計 も公開
- MITライセンス
- 貢献歓迎 (CONTRIBUTING.md参照)
まとめ
- whichllm は「VRAMに入る最大モデル」ではなく、 実際に最高品質なLLM を選ぶための エビデンス重視型ツール
- ワンコマンドで最適化・即利用・開発連携 までサポート
- 日本語環境でも簡単・高速にローカルLLM選定・実行 が可能