世界を動かす技術を、日本語で。

Ornith-1.0: エージェントコーディングのための自己改善型オープンソースモデル

2026年6月30日原文(github.com)

概要

  • Ornith-1.0 は自己改善型のオープンソースエージェントコーディングモデル。
  • 9B-Dense/31B-Dense/35B-MoE/397B-MoE など多様な構成とサイズを提供。
  • 最新のコーディングベンチマーク で同規模OSS中トップクラスの性能を実現。
  • MITライセンス でグローバルに利用可能、地域制限なし。
  • OpenAI互換API ・多様な推論/エージェントフレームワークに対応。

Ornith-1.0とは

  • 自己改善型トレーニングフレームワーク を採用したコーディング特化AIモデル。
  • 強化学習(RL) でロールアウト(解答生成)だけでなく、解答までの思考過程(スキャフォールド)も最適化。
  • Gemma 4/Qwen 3.5 上で追加学習され、多様なベンチマークで高いスコアを達成。
  • エージェント的コーディング (ツール呼び出し・複雑な指示対応)に優れる設計。
  • MITライセンス で商用・研究問わず利用可能。

主なモデル構成

  • 9B-Dense :単一GPUで運用可能な軽量Denseモデル。
  • 35B-MoE/397B-MoE :複数GPUでの並列推論に対応したMixture-of-Expertsモデル。
  • 各モデルはOpenAI互換API256Kトークンの長文コンテキスト をサポート。
  • GGUF量子化版 も用意、llama.cppやOllama等でローカル推論可能。

ベンチマーク・性能

  • Terminal-Bench 2.1/SWE-Bench/NL2Repo/ClawEval 等の指標で同規模OSS中最高水準の精度。
  • 各モデルサイズごとに競合OSSモデル(Qwen/Gemma/Claude等)と比較し優位性を実証
  • 詳細な評価条件 (温度・トークン数・コンテキスト長・ツール呼び出し設定等)を明記。

推論・サービング方法

  • Transformers(5.8.1以上)/vLLM(0.19.1以上)/SGLang(0.5.9以上) 対応。
  • Dense 9B は単一80GB GPUで動作、 MoEモデル は複数GPUを用いたテンソル並列推論。
  • 推奨サンプリングパラメータ :temperature=0.6, top_p=0.95, top_k=20(ベンチマーク再現はtemperature=1.0)。
  • OpenAI互換API で任意のSDKやcurlから/v1/chat/completionsエンドポイント利用可能。

サービング例(vLLM)

  • MODEL 環境変数でチェックポイント指定(-9B, -35B, -397B, -FP8等)。
  • MoEモデル は--tensor-parallel-sizeでGPU数指定、Denseは単独GPUでOK。
  • 推論時に思考過程(<think>...</think>)やツール呼び出し(<tool_call>)をパース可能

Transformersによるローカル推論例

  • AutoModelForCausalLM/AutoTokenizer でモデル読込。
  • 会話テンプレート適用→推論→出力から<think>ブロック/最終解答を分離

エージェント的活用・ツール連携

  • OpenAI互換エンドポイント 経由でHermes Agent/OpenHands/OpenClaw/llama.cpp/Ollama等と連携。
  • ツール呼び出し(function calling) に標準対応、例:get_weather/run_shell等の外部関数呼び出し。
  • MCPサーバー経由で複数ツールを接続したエージェント構築も容易

エージェントフレームワークとの統合例

  • Hermes Agent :環境変数でエンドポイント指定し即利用。
  • OpenHands :LiteLLM経由でOpenAI互換API指定。
  • llama.cpp/Ollama :GGUF形式でローカルサービング。
  • Unsloth Studio :高速ローカル推論・ファインチューニング向け。

コーディングCLI・オートメーション

  • Ornith-1.0はターミナル型コーディングエージェント最適化
  • 大規模コードベース理解や自動化作業 に強み。
  • 任意のOpenAI互換コーディングCLI からエンドポイント指定で即利用可能。

Ornith-1.0 は、 最新のOSSコーディングAI として、 高性能・高拡張性・柔軟なAPI互換性 を備えた自己改善型エージェントモデル。多様な機械学習/エージェント/コーディング用途に即応可能な次世代OSS基盤。

Hackerたちの意見

誰かここでの話を説明してくれない?これはただのリスキンされたQwenなの?deepreinforce-aiって誰で、なんでこのモデルは彼らのウェブサイトに載ってないの?自己改善はどうやってるの?モデルはディスク上で変わるのか、それとも単一のコンテキスト実行中だけ改善するの?

自己改善はしないよ、それは誤解を招く見出しだね。私が知る限り、彼らはQwenとGemma 4の上に独自の強化学習を実行してトレーニングしたみたい。両者の重みをどうやって組み合わせたのか、Qwenを基にしてGemma 4を使ってトレーニングしたのかは分からないけど。「自己改善」というのは彼らのトレーニングプロセスについてであって、重みの使い方ではないよ。

釣りタイトルだね。

以前の情報: https://news.ycombinator.com/item?id=48709744 https://swelljoe.com/post/will-it-mythos/: 「ここではパフォーマンスが悪くて、ほとんどのモデルが見つけたバグを一つだけ見つけた。サイズに対して他のベンチマークでのパフォーマンスは優れているのにね。 […] ツールなしのチャットではパフォーマンスが悪く、幻覚に対する熱意を示している。現在、bash/Pythonを含むフルツールアクセスでの再現に取り組んでいて、これがこのモデルを競争力のあるものにするかもしれない。」

ツールなしのチャットではパフォーマンスが悪く、幻覚に対する熱意を示している。現在、bash/Pythonを含むフルツールアクセスでの再現に取り組んでいて、これがこのモデルを競争力のあるものにするかもしれない。これが'26年の真剣な発言なの?正直、このファインチューニングが良いのかどうか分からないし、試してもいないけど、(明らかに)エージェントモデルをツールなしでテストして、うまくいくと思うのはクレイジーじゃない?何をテストしてたんだろう?!

そのベンチマークでは、Kimi K2.6とK2.7のコードが下の方にランクされてる。どちらもOrnith 35Bより下だし、Gemma 4 26BはGLM-5.2よりずっと高い評価を受けてる。結果があまり意味を成さないね。

これは単にQwenかGemma 4のベンチマックス版だね。

引用が必要

そうだとしたら、Qwenをさらにベンチマックスできたのはすごいね。

これは地元のLLMコミュニティに即座に拒否されない初めてのQwenファインチューニングで、場合によっては推薦されることもある。私の限られた使用に基づくと、良い感じで、コーディングの問題に対してクリエイティブな解決策を提供してくれる。9-35Bモデルがワンクリックでフルアプリを作成するとは思ってないよ。文句を言ってた人たちは大体そうだったし。

文句を言ってた人たちは大体そうだったし。残念ながら、最初からこうだったよ。地元のモデルを地元のワークロードで、控えめなガードレールを使って試すことに害はないよ。これらのモデル(Qwen、Gemma、Llama、gpt-oss)のほとんどと同様に、特別なトークンやプロンプト構造、モデルの好みなどの小さな罠を見つけるのは今は面倒くさい。報酬は、あなたが一生懸命学んだプロンプトやパラメータで調整されたエージェントハーネスで異常にうまく動く素晴らしいモデルだよ。

俺たち、違うコミュニティにいるみたいだね… Qwenモデルは、実際に一般の人が使えるローカルハードウェアで動く最もおすすめのやつだよ!

Hacker Newsで議論の続きを見る