概要
- Ornith-1.0 は自己改善型のオープンソースエージェントコーディングモデル。
- 9B-Dense/31B-Dense/35B-MoE/397B-MoE など多様な構成とサイズを提供。
- 最新のコーディングベンチマーク で同規模OSS中トップクラスの性能を実現。
- MITライセンス でグローバルに利用可能、地域制限なし。
- OpenAI互換API ・多様な推論/エージェントフレームワークに対応。
Ornith-1.0とは
- 自己改善型トレーニングフレームワーク を採用したコーディング特化AIモデル。
- 強化学習(RL) でロールアウト(解答生成)だけでなく、解答までの思考過程(スキャフォールド)も最適化。
- Gemma 4/Qwen 3.5 上で追加学習され、多様なベンチマークで高いスコアを達成。
- エージェント的コーディング (ツール呼び出し・複雑な指示対応)に優れる設計。
- MITライセンス で商用・研究問わず利用可能。
主なモデル構成
- 9B-Dense :単一GPUで運用可能な軽量Denseモデル。
- 35B-MoE/397B-MoE :複数GPUでの並列推論に対応したMixture-of-Expertsモデル。
- 各モデルはOpenAI互換API、 256Kトークンの長文コンテキスト をサポート。
- GGUF量子化版 も用意、llama.cppやOllama等でローカル推論可能。
ベンチマーク・性能
- Terminal-Bench 2.1/SWE-Bench/NL2Repo/ClawEval 等の指標で同規模OSS中最高水準の精度。
- 各モデルサイズごとに競合OSSモデル(Qwen/Gemma/Claude等)と比較し優位性を実証。
- 詳細な評価条件 (温度・トークン数・コンテキスト長・ツール呼び出し設定等)を明記。
推論・サービング方法
- Transformers(5.8.1以上)/vLLM(0.19.1以上)/SGLang(0.5.9以上) 対応。
- Dense 9B は単一80GB GPUで動作、 MoEモデル は複数GPUを用いたテンソル並列推論。
- 推奨サンプリングパラメータ :temperature=0.6, top_p=0.95, top_k=20(ベンチマーク再現はtemperature=1.0)。
- OpenAI互換API で任意のSDKやcurlから/v1/chat/completionsエンドポイント利用可能。
サービング例(vLLM)
- MODEL 環境変数でチェックポイント指定(-9B, -35B, -397B, -FP8等)。
- MoEモデル は--tensor-parallel-sizeでGPU数指定、Denseは単独GPUでOK。
- 推論時に思考過程(<think>...</think>)やツール呼び出し(<tool_call>)をパース可能。
Transformersによるローカル推論例
- AutoModelForCausalLM/AutoTokenizer でモデル読込。
- 会話テンプレート適用→推論→出力から<think>ブロック/最終解答を分離。
エージェント的活用・ツール連携
- OpenAI互換エンドポイント 経由でHermes Agent/OpenHands/OpenClaw/llama.cpp/Ollama等と連携。
- ツール呼び出し(function calling) に標準対応、例:get_weather/run_shell等の外部関数呼び出し。
- MCPサーバー経由で複数ツールを接続したエージェント構築も容易。
エージェントフレームワークとの統合例
- Hermes Agent :環境変数でエンドポイント指定し即利用。
- OpenHands :LiteLLM経由でOpenAI互換API指定。
- llama.cpp/Ollama :GGUF形式でローカルサービング。
- Unsloth Studio :高速ローカル推論・ファインチューニング向け。
コーディングCLI・オートメーション
- Ornith-1.0はターミナル型コーディングエージェント最適化。
- 大規模コードベース理解や自動化作業 に強み。
- 任意のOpenAI互換コーディングCLI からエンドポイント指定で即利用可能。
Ornith-1.0 は、 最新のOSSコーディングAI として、 高性能・高拡張性・柔軟なAPI互換性 を備えた自己改善型エージェントモデル。多様な機械学習/エージェント/コーディング用途に即応可能な次世代OSS基盤。