世界を動かす技術を、日本語で。

Show HN: あなたのハードウェアに最適なローカルLLMをベンチマークで評価して見つける

概要

whichllm は、あなたのPCの GPU/CPU/RAM を自動検出し、HuggingFace上の最適なローカルLLMをランキング。 モデルの実際の ベンチマーク品質 で順位付けし、単なるサイズでは選ばない。 ワンコマンド で自動判定・チャット開始・Pythonコード出力も可能。 GPUシミュレーション やハードウェア逆引きも対応。 公式サイト・GitHub で詳細とインストール方法を案内。

whichllm:最適なローカルLLM自動選定ツール

  • whichllm は、PCの ハードウェア構成 (GPU/CPU/RAM)を自動検出し、 HuggingFace上の 最新・高品質なローカルLLM を自動ランキングするCLIツール

    • NVIDIA, AMD, Apple Silicon, CPU専用も対応
    • VRAMや速度、ベンチマークスコアで総合評価
  • ベンチマーク品質重視 のランキング

    • LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO, Open LLM Leaderboard等の 実測値 を統合
    • モデルサイズや新旧、量子化による品質低下も考慮
    • 証拠グレード (直系/派生/自己申告等)によるスコア調整
  • ワンコマンドで即実行

    • whichllm run で 最適モデルを自動ダウンロード・チャット開始
    • whichllm snippet で 即利用できるPythonコード を出力
    • Ollama等外部ツール連携 も可能
  • ハードウェアプランニング・シミュレーション

    • --gpu "RTX 4090"等で 購入前にシミュレート
    • planコマンドで「このモデルにはどのGPUが必要?」も逆引き可能
  • JSON出力・パイプ連携

    • --jsonオプションで スクリプトや他ツールと連携しやすい

使い方・コマンド例

  • 自動検出&最適モデル表示

    • whichllm
  • GPUシミュレーション

    • whichllm --gpu "RTX 4090"
    • whichllm --gpu "RTX 5090"
  • CPUのみモード

    • whichllm --cpu-only
  • 上位20件表示やフィルタ

    • whichllm --top 20
    • whichllm --quant Q4_K_M
    • whichllm --min-speed 30
  • 証拠グレード指定

    • whichllm --evidence base
    • whichllm --evidence strict
  • JSON出力

    • whichllm --json
  • ハードウェア情報のみ

    • whichllm hardware
  • 逆引き:必要GPUを調べる

    • whichllm plan "llama 3 70b"
    • whichllm plan "Qwen2.5-72B" --quant Q8_0
  • チャット開始

    • whichllm run "qwen 2.5 1.5b gguf"
    • whichllm run # 自動選択
  • Pythonコードスニペット出力

    • whichllm snippet "qwen 7b"
    • whichllm snippet "llama 3 8b gguf" --quant Q5_K_M

スコアリング・ランキングロジック

  • スコア0-100 で各モデルを評価

    • ベンチマーク品質(複数ソース統合+信頼度補正)
    • モデルサイズ(知識量の指標)
    • 量子化(低bitは減点)
    • 証拠信頼度(直系>派生>自己申告)
    • 実行適合度(VRAM/CPU/部分オフロード)
    • 推論速度(tok/s)
    • ソース信頼性(公式/非公式)
    • 人気・ダウンロード数(同点時のタイブレーク)
  • 証拠グレード

    • direct(完全一致)/ variant(派生)/ base_model(ベース一致)/ line_interp(補間)/ self_reported(自己申告)
    • ファミリー内で2倍以上サイズ差がある場合はスコア継承を拒否
  • ベンチマーク日付も明示

    • 古いリーダーボードのスコアは自動減点、 新世代優先

インストール方法

  • uv推奨

    • uv tool install whichllm
  • Homebrew

    • brew tap Andyyyy64/whichllm
    • brew install whichllm
  • pip

    • pip install whichllm
  • 開発版

    • git clone https://github.com/Andyyyy64/whichllm.git
    • cd whichllm
    • uv sync --dev
    • uv run whichllm

対応フォーマット・実行環境

  • GGUF (llama-cpp-python、軽量高速)

  • AWQ / GPTQ (transformers + autoawq / auto-gptq)

  • FP16 / BF16 (transformers)

  • NVIDIA, AMD, Apple Silicon, CPU 自動検出

  • Linux+NVIDIA はAWQ/GPTQも利用可能

  • Apple Silicon/CPU はGGUF推奨

代表的なモデル・ハードウェア例(2026-05時点)

| ハードウェア | VRAM | 推奨モデル | 速度 | |---------------------|---------|-----------------------------------|-----------| | RTX 5090 | 32GB | Qwen3.6-27B · Q6_K · score 94.7 | ~40 t/s | | RTX 4090 / 3090 | 24GB | Qwen3.6-27B · Q5_K_M · score 92.8 | ~27 t/s | | RTX 4060 | 8GB | Qwen3-14B · Q3_K_M · score 71.0 | ~22 t/s | | Apple M3 Max | 36GB | Qwen3.6-27B · Q5_K_M · score 89.4 | ~9 t/s | | CPUオンリー | - | gpt-oss-20b (MoE) · Q4_K_M · 45.2 | ~6 t/s |

便利な連携例

  • Ollamaと組み合わせて最適モデル即実行

    • whichllm --top 1 --json | jq -r '.models[0].model_id' | xargs ollama run
  • シェルエイリアス例

    • alias bestllm='whichllm --top 1 --json | jq -r ".models[0].model_id"'
    • ollama run $(bestllm)

開発・貢献

  • Python 3.11+ 必須
  • NVIDIA/AMD/Apple Silicon/CPU検出 は自動
  • 詳細なプロジェクト構造・キャッシュ設計 も公開
  • MITライセンス
  • 貢献歓迎 (CONTRIBUTING.md参照)

まとめ

  • whichllm は「VRAMに入る最大モデル」ではなく、 実際に最高品質なLLM を選ぶための エビデンス重視型ツール
  • ワンコマンドで最適化・即利用・開発連携 までサポート
  • 日本語環境でも簡単・高速にローカルLLM選定・実行 が可能

Hackerたちの意見

Brewのインストールが壊れてるみたい。正直言って、かなりダメだと思う。古いqwen 2.5をたくさん勧めてくるけど、こっちはqwen 3.5と3.6のモデルをこのMacで普通に動かしてるのに。

AIの質が低いソフトウェアだね。「今ソフトウェアをリリースするよ、みんな頑張って!」

いい感じだね。最近こういうの探してたから、最新モデルがないランキングとか、量子化がはっきりしてないのにイライラしてた。量子化ごとの品質損失を示してくれるのはいいね。ウェブサイトとして提供してくれると嬉しいな。どうせ専用の推論サーバーでモデルを動かすから。ベースラインの上にどれだけの最大コンテキスト長が収まるかも見てみたい。すごく長いコンテキストを使うとトークン生成速度がかなり落ちるのには驚いたよ。30/sが2/sにまで落ちることもある。単一の速度指標じゃそれに備えられなかった。いくつかのモデルがバッチ並列処理でうまくスケールするのにも驚いた。8つのリクエストを並行して実行することで4倍の速度向上が得られるんだ。でも、これがメモリ要件に影響するし、すべてのモデルや推論エンジンに当てはまるわけじゃない。それを示してくれるといいな。いくつかのサイトは「あなたのワークフローは?」にまとめちゃうけど、それはちょっと不透明すぎる。KVキャッシュの量子化も速度やVRAM使用量、最大使用可能コンテキストに影響を与える。Apple SiliconのMLX対応モデルビルドも違いが出るから、ベンチマークが最速の実装に基づいていることを確認できるといいな。マルチトークン予測も速度に大きく影響する要素だね。

これもすごく役立つよ: https://www.canirun.ai/

デフォルトが「NVIDIA GeForce 8800 GTX」になってるのが好き。2006年にリリースされたGPUで、VRAMは約700MB… 推定値もかなりずれてるみたい。https://www.canirun.ai/model/gpt-oss-120bを例に取ると、RTX Pro 6000で、すべての数字が外れてるし、GPT-OSSの最も重要な量子化、MXFP4バリアントの推定が特に欠けてる。

どのブラウザでも結果が違うから、サイトのせいにはできないかな。でも、どのブラウザが最も正確かを言及しておくべきだと思う。

うん、私もこのサイト好きだけど、ちょっと古いね。「39日前」ってAIの時間では1年遅れの情報みたい。

canirun.ai 俺はdgx sparkを使ってるけど、ここでの結果は俺のプラットフォームに対してめっちゃ不完全で、このサイトは信頼できないよ(俺の使い方にはね)。

完璧じゃないけど、artificialanalysis.aiの「人工分析インデックスにおける知能と出力トークンの使用」チャート[0](タイトルのチャートまでスクロールしてね)がすごく役立つと思う。適切な評価には、スコア、速度、冗長性の3つを比較する必要がある。このチャートはスコアと冗長性をプロットしてるよ。[0] https://artificialanalysis.ai/?models=gpt-oss-120b%2Cgemma-4...

面白いコンセプトだね!提案なんだけど、whichllm の方が役立つかも。例えば、which codingwhich text-to-video みたいに。

Pythonスクリプト用の無料ホスティングってある?カジュアルに使うにはそれが便利だよね。

なんでウェブページを使わないの?

  1. このツールの結果は良くないね。Qwen2.5シリーズみたいな古いモデルを勧めてて、新しい良いモデルが抜けてる。2. これ、クライアントサイドで動く単一のウェブページにできたはずで、他のツールみたいにハードウェアのスペックを入力できるようにすればよかったのに。今の時代、こういう未知のプロジェクトを自分のコンピュータにインストールして動かすのは良くないと思う。3. プロジェクトは明らかにvibecodedで、READMEもそうだし。4. このアカウントからのコメントは全部AI生成っぽい。だから、これを自分のコンピュータにインストールして動かすのはやめた方がいいよ。他のツールと比べて特に利点はないし、アカウントやプロジェクトの全てが低努力のAI生成コンテンツに見える。

具体的にどこからメトリクスを取得してるの?外部から?それともこのプロジェクトのためにどこかでベンチマークを実行してるの?後者なら、外部ソースがバイアスをかけてる場合でも、より公平な比較ができるかもね。