概要
- Forge は自己ホスト型LLMツールコーリングのための 信頼性レイヤ
- ガードレール (リトライ、ステップ強制、エラー回復)と VRAM対応コンテキスト管理 で8Bモデルの多段エージェントワークフロー精度向上
- Ministral-3 8B Instruct を使い、26シナリオで 86.5%、最難関Tierで 76% のスコア
- ワークフローループ管理、スロットワーカー、プロキシサーバ など多様な利用方法
- MITライセンス、詳細なドキュメントと論文・評価ハーネス付き
Forge: 自己ホストLLMツールコーリングの信頼性レイヤ
- Forge は自己ホスト型LLMツールコーリングのための 信頼性強化ミドルウェア
- ガードレール機能 (レスキューパース、リトライナッジ、ステップ強制)と VRAM予算対応コンテキスト管理 を搭載
- Ministral-3 8B Instruct Q8 (llama-server上)で26シナリオ評価スイート 86.5%、最難関Tier 76% 達成
- ワークフローループ自動管理、 優先キュー付きスロットワーカー、 OpenAI互換プロキシサーバ など多様な利用パターン
- Ollama、 llama-server、 Llamafile、 Anthropic など多様なバックエンドをサポート
主な利用方法
-
WorkflowRunner
- ツール定義、バックエンド選択、構造化エージェントループ実行
- システムプロンプト、ツール実行、コンテキスト圧縮、ガードレールまでライフサイクル全管理
-
SlotWorker
- GPUスロット共有のための優先度付きキューアクセス
- マルチエージェントアーキテクチャで有効
-
Guardrails Middleware
- 独自オーケストレーションループにForgeの信頼性スタックを組み込み
- レスポンス検証、ツールコール修正、必須ステップ強制
-
Proxy Server
- OpenAI互換プロキシとしてForgeのガードレールを透過的に適用
- クライアントは賢いモデルと認識、Ollama/llama-server/Llamafile/Anthropic対応
システム要件とインストール
- Python 3.12+ 必須
- LLMバックエンド (Ollama/llama-server/Llamafile/Anthropic)稼働必要
- pipによるインストール例:
pip install forge-guardrails(コアのみ)pip install "forge-guardrails[anthropic]"(Anthropicクライアント込み)
バックエンドのセットアップ
-
llama-server (推奨)
- https://github.com/ggml-org/llama.cpp/releases からインストール
llama-server -m path/to/Ministral-3-8B-Instruct-2512-Q8_0.gguf --jinja -ngl 999 --port 8080
-
Ollama
- https://ollama.com/download からインストール
ollama pull ministral-3:8b-instruct-2512-q4_K_M
-
Anthropic
pip install -e ".[anthropic]"export ANTHROPIC_API_KEY=sk-...
クイックスタート例
-
Pythonコード例
- ツール定義、ワークフロー作成、Ollamaクライアント利用例
-
マルチステップワークフローや長期セッション
- 詳細はUser Guide参照
Proxy Server利用例
- 外部モード
python -m forge.proxy --backend-url http://localhost:8080 --port 8081
- 管理モード
python -m forge.proxy --backend llamaserver --gguf path/to/model.gguf --port 8081
- OpenAI互換クライアント は
http://localhost:8081/v1をAPIベースURLに設定
バックエンド比較
- Ollama :セットアップ容易、モデル管理内蔵、FC対応
- llama-server :最高性能、完全制御、FC対応
- Llamafile :単一バイナリ、依存ゼロ、プロンプト注入FC
- Anthropic :フロンティアAPI、ハイブリッドワークフロー
評価とテスト
- pytest によるユニットテスト・カバレッジ
- Eval Harness
- 26シナリオ(OG-18+advanced_reasoning 8件)
- CLIベース評価、バッチ評価、レポート出力対応
プロジェクト構成
- src/forge/
- core(ワークフロー・推論・ランナー)
- guardrails(レスポンス検証・ステップ強制・エラートラッカー)
- clients(Ollama/llama-server/Llamafile/Anthropicクライアント)
- context(コンテキストマネージャ・圧縮戦略)
- proxy(プロキシサーバ)
- tests(ユニット・評価ハーネス)
ドキュメント・論文
-
User Guide :利用パターン、マルチターン、ガードレール、スロットワーカー、長期セッション
-
Model Guide :ハードウェア適合モデル選択
-
Backend Setup :インストール・サーバー設定
-
Eval Guide :評価CLI
-
Architecture/Workflow Internals/Contributing :設計・内部・貢献方法
-
論文 :ACM CAIS '26採択 "Forge: A Reliability Layer for Self-Hosted LLM Tool-Calling"
- https://doi.org/10.1145/3786335.3813193
- preprint: docs/forge_ieee_preprint.pdf
-
MITライセンス、2025-2026 Antoine Zambelli著作権
HN投稿・開発者コメント要約
-
開発者Antoine Zambelli (Texas Instruments AI Director)がForgeを開発
-
自己ホスト型LLMツールコーリングの信頼性課題
- 90%/stepでも5ステップで40%失敗率となる「機械的信頼性問題」
- 既存フレームワークはクラウド前提、ローカルモデルの信頼性は未解決
-
Forgeの特徴
- ガードレール (リトライナッジ、ステップ強制、エラー回復、VRAM予算管理)で
- 8Bモデルの多段ワークフロー成功率を 53%→99% へ引き上げ
- モデル自体は変更せず、システム周辺の設計で精度向上
- 評価ハーネス・ダッシュボード 付属で再現性のある数値提示
- 論文 :97モデル/バックエンド、18シナリオ、50回ずつの検証
- Ministral 8B+Forge: 99.3%、 Claude Sonnet+Forge: 100%
- Claude Sonnet without guardrails: 87.2% (Forge+8BがAPI単体より高精度)
- ガードレール (リトライナッジ、ステップ強制、エラー回復、VRAM予算管理)で
-
技術的発見
- サービングバックエンドの違い が大きな精度差を生む(同一重みでも最大75pt差)
- ツール呼び出し成功時の「データなし」区別が従来不在
- Forgeは ToolResolutionError を導入、モデルがリトライ可能に
- VRAM超過時のサイレントCPUフォールバック に対し、Forgeは nvidia-smi で動的トークン予算を設定
-
利用方法提案
- 未検証モデルで評価ハーネス実行、結果はダッシュボード掲載
- OpenAI互換プロキシサーバで任意クライアントと連携
- v0.6.0でモデルパラメータ最適化、より困難な評価スイート設計
-
論文・リソース
- ACM CAIS '26採択、ML分野での実績
- レポジトリ:https://github.com/antoinezambelli/forge
- 論文:https://www.caisconf.org/program/2026/demos/forge-agentic-re...
- ダッシュボード:https://github.com/antoinezambelli/forge/docs/results/dashbo...
まとめ
- Forge は自己ホストLLMツールコーリングの信頼性を劇的に高めるオープンソースミドルウェア
- ガードレール層 と VRAM考慮型コンテキスト管理 でローカル8BモデルでもクラウドAPIに迫る精度を実現
- 多様なバックエンド・利用形態、 詳細な評価・ドキュメント・論文 で再現性と拡張性を両立
- ローカルAIエージェント・業務自動化・研究用途 に最適な信頼性基盤