概要
llmfit は、数百種類のLLMモデルやプロバイダーに対応し、 1コマンドで自分のPCに最適なモデルを選定 できるターミナルツール。 ハードウェア自動検出 と 多次元スコアリング により、品質・速度・適合性・文脈長でモデルを比較。 TUI(対話型UI) と CLI(コマンドライン) モードを搭載し、 GPU/CPU/メモリ構成 に応じて動作可能なモデルを案内。 MoEアーキテクチャ や 動的量子化、 マルチGPU、 ローカル実行環境 もサポート。 インストールや利用方法も クロスプラットフォーム で簡単。
llmfitの概要・特徴
- 数百種類のLLMモデル・プロバイダー を一括管理
- 1コマンド で自分のハードウェアに適したモデルを自動判定
- CPU・RAM・GPU・VRAM を自動検出、モデルごとに 品質・速度・適合性・文脈長 でスコアリング
- TUI(対話型UI) と CLI(コマンドライン) の2モードを搭載
- マルチGPU構成、 MoE(Mixture-of-Experts)、 動的量子化、 ローカル実行プロバイダー (Ollama, llama.cpp, MLX)に対応
- sympozium (Kubernetesエージェント管理)の姉妹プロジェクト
インストール方法
- macOS/Linux高速インストール
curl -fsSL https://llmfit.axjns.dev/install.sh | sh最新バイナリ をGitHubからダウンロードし、/usr/local/bin(または~/.local/bin)に配置- Homebrew 対応:
brew install llmfit
- Windows
- Cargo 推奨:
cargo install llmfit - Rust未導入の場合 は
rustupでRust導入後にCargo利用
- Cargo 推奨:
- ソースからビルド
git clone https://github.com/AlexsJones/llmfit.gitcd llmfitcargo build --release
TUI(対話型UI)利用方法
llmfitコマンドで TUI起動- CPU/RAM/GPU/VRAM/バックエンド が画面上部に表示
- モデル一覧は スコア順 にスクロール表示
- 各行に スコア・推定トークン速度・最適量子化・実行モード・メモリ利用量・用途 を表示
- 主なキーバインド
- 上下/
j/k:モデル間移動 /:検索モードf:適合性フィルタ切替(All, Runnable, Perfect, Good, Marginal)a:利用可否フィルタ(All, GGUF Avail, Installed)s:ソートカラム切替t:カラーテーマ切替(6種、設定保存)p:選択モデルの Planモード (必要ハードウェア逆算)d:モデルダウンロードq:終了
- 上下/
Planモード
- モデルごとに必要ハードウェアを逆算
- 文脈長・量子化・目標トークン速度を入力し、 最小/推奨VRAM・RAM・CPUコア数 を推定
- 実行パスごとの可否(GPU、CPUオフロード、CPUのみ)やアップグレード差分も表示
テーマ
tキーで 6種類のカラーテーマ を切替可能- Default, Dracula, Solarized, Nord, Monokai, Gruvbox
CLIモード利用例
llmfit --cli:全モデルをテーブル表示llmfit fit --perfect -n 5:完全適合モデル上位5件llmfit system:システムスペック表示llmfit list:全モデル一覧llmfit search "llama 8b":名前・プロバイダー・サイズで検索llmfit info "Mistral-7B":モデル詳細llmfit recommend --json --limit 5:推奨モデル(JSON)llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192:特定構成の必要ハードウェア推定
VRAM・文脈長オーバーライド
- GPU VRAM自動検出失敗時 は
--memoryで手動指定- 例:
llmfit --memory=32G
- 例:
- メモリ見積もり用文脈長制限 は
--max-contextで指定- 例:
llmfit --max-context 4096 --cli
- 例:
JSON出力
- すべてのサブコマンドで
--json指定可能- 機械可読なハードウェア・推奨・プラン情報を出力
仕組み・内部ロジック
- ハードウェア検出
- RAM/CPUコア数/GPU(NVIDIA, AMD, Intel Arc, Apple Silicon, Ascend)を自動取得
- マルチGPU はVRAM合算、バックエンドも自動判定(CUDA, Metal, ROCm, SYCL, CPU ARM/x86, Ascend)
- モデルデータベース
- HuggingFace API から数百モデルを自動取得し、ビルド時に埋め込み
- パラメータ数・量子化階層ごとに メモリ要件計算
- MoE はアクティブエキスパート分のみVRAM計算
- 動的量子化
- Q8_0→Q2_K の階層で、ハードウェアに最適な量子化を自動選択
- フル文脈長で収まらない場合は半分で再試行
- 多次元スコアリング
- 品質・速度・適合性・文脈長 の4軸で0–100点評価
- 用途別(General, Coding, Reasoning, Chat, Multimodal, Embedding)で重み付け変更
- 実行不可なモデルは常に最下位
- 速度推定
- GPUメモリ帯域幅 に基づき推定(80種以上のGPUに対応)
- 未対応GPUはバックエンドごとの定数で推定
- 適合性分析
- 実行モード (GPU, MoE, CPU+GPU, CPU)ごとに適合レベル(Perfect, Good, Marginal, Too Tight)を判定
モデルデータベース管理
- 自動更新 は
make update-modelsまたは./scripts/update_models.sh - 手動更新 は
python3 scripts/scrape_hf_models.py後、cargo build --release - GGUFダウンロード元 も自動付与(unsloth, bartowski等)
プロジェクト構成
src/main.rs:CLI引数・TUI起動hardware.rs:ハードウェア検出models.rs:モデルDB・量子化階層・自動選択fit.rs:スコアリング・速度推定・MoEオフロードproviders.rs:ランタイムプロバイダー管理
llmfit は、複雑なLLMモデル選定・実行を 一元化・自動化 する強力なツール。 手軽な導入・豊富なUI・詳細な分析機能 で、LLM運用の最適化を実現。