世界を動かす技術を、日本語で。

$500のGPUがコーディングベンチマークでClaude Sonnetを上回る

概要

  • A.T.L.A.S は自己完結型AIコード生成・修正システム
  • 14Bパラメータモデル で74.6%の高精度を実現
  • APIやクラウド不要、1台のGPUで完結
  • 段階的生成・自己検証・自動修正 の独自パイプライン
  • 今後のロードマップ でさらなる精度・汎用性向上を目指す

A.T.L.A.S概要

  • A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) は、凍結済みの小型LLMを 知的インフラ でラップし、最先端APIモデルに匹敵する性能を 低コスト自己完結型 で実現
  • LiveCodeBench v5 で74.6% (pass@1-v(k=3))を達成、従来のV2(36-41%)から大幅向上
  • APIコール・クラウド・外部データ送信不要、全てローカルGPU上で完結
  • 1台のRTX 5060 Ti 16GB で動作、電気代のみがコスト
  • 段階的生成(PlanSearch)・エネルギーベース検証(Geometric Lens)・自己修正(PR-CoT) によるパイプライン

ベンチマーク結果・コスト比較

  • LiveCodeBench v5 :74.6% (pass@1-v(k=3)), 599タスク
  • GPQA Diamond :47.0%、198タスク(科学知識推論)
  • SciCode :14.7%、341タスク(科学コーディング)
  • 他モデルとの比較
    • DeepSeek V3.2 Reasoning:86.2%(API/有料)
    • GPT-5:84.6%(API/高コスト)
    • Claude 4.5 Sonnet:71.4%(API/高コスト)
    • A.T.L.A.S V3 :74.6%、1タスク約$0.004(電気代のみ)

技術的特徴・パイプライン

  • PlanSearch :多様な計画と制約抽出による生成

  • BudgetForcing :生成トークン数の制御

  • Geometric Lens :5120次元自己埋め込みによる候補選別

  • Sandbox :コード実行による検証

  • Self-Test Gen & PR-CoT Repair :自己生成テストケースと多視点思考による自動修正

  • 全段階でモデルは答えを見ずに自己検証・修正

    • Phase 1 :生成(PlanSearch+BudgetForcing)
    • Phase 2 :Lensルーティング(候補選別)
    • Phase 3 :自己検証・修正(PR-CoT)
  • K3s上のllama-server で推論・自己埋め込み生成を統合

導入・セットアップ

  • 推奨環境
    • GPU VRAM:16GB以上(RTX 5060 Ti 16GBで実証済み)
    • システムRAM:14GB以上
    • Python 3.10+、RHEL 9 / Ubuntu 24
  • インストール手順
    • リポジトリclone、設定ファイル修正、スクリプト実行でセットアップ
    • 詳細はdocs/SETUP.md参照
  • 再現性
    • Proxmox VM上のRHEL 9+RTX 5060 Ti 16GBで検証
    • 他のNVIDIA GPUでもVRAM調整で対応可能

プロジェクト構成

  • benchmark/:ベンチマークスイート(V2/V3パイプライン)
  • benchmark/v3/:V3各サブシステム(PlanSearch, PR-CoT等)
  • rag-api/:Geometric Lens, RAG, キャッシュ等コアAPI
  • llama-server/:パッチ済みllama.cppサーバー
  • manifests/:K3sデプロイ用マニフェスト
  • scripts/:インストール・管理スクリプト
  • tests/:テストスイート
  • docs/:アーキテクチャ・セットアップ・トラブルシュート等

ドキュメント一覧

  • ARCHITECTURE.md:システム構成・データフロー
  • V3_ABLATION_STUDY.md:V3アブレーション解析
  • SETUP.md:インストール・展開ガイド
  • CONFIGURATION.md:設定リファレンス
  • TROUBLESHOOTING.md:よくある問題と解決策
  • API.md:APIエンドポイント解説

既知の制限・今後の課題

  • V3.1で改善予定の点

    • LiveCodeBench最適化偏重 → 汎用性向上へ
    • Geometric Lens (C(x))の訓練データ不足 → 実問題由来データで再訓練
    • G(x)(メトリックテンソル)未活用 → 再設計または削除検討
    • パイプラインが単一スレッド → タスク並列化対応
    • SandboxAdapterのstdioバグ → V3.1で修正予定
  • V3.1新要素

    • Qwen3.5-9B+DeltaNetアーキテクチャへのモデル入替
    • マルチトークン予測による高速化
    • Geometric Lensのオンライン再調整
    • タスクレベル並列化
    • コーディング以外の汎用ベンチマーク拡充

今後のベンチマーク・ロードマップ

  • V3.1で評価予定の主なベンチマーク
    • LiveCodeBench v5(コーディング)
    • SciCode(科学コーディング)
    • GPQA Diamond(科学推論)
    • AA-LCR(長文推論)
    • AA-Omniscience(知識・ハルシネーション率)
    • Humanity's Last Exam(極限推論)
    • CritPt(物理推論)
  • Confidence Router によるタスク難易度判定・リソース配分
  • 目標 :80-90% LCB pass@1-v(k=3)、高速化・汎用化

ライセンス

  • A.T.L.A.S Source Available License v1.0 (詳細はLICENSE参照)

A.T.L.A.Sは、1台のGPUで自己完結・高精度なAIコード生成/修正を実現する、次世代のオープンソースAIインフラ。

Hackerたちの意見

いつも疑いの目で見ちゃうんだよね。ベンチマークをクリアできても、実際に使うと全然役に立たないことが多いから、超一般的なモデルとは違って。けど、モデルをスリム化する可能性にはワクワクしてるよ。

自分に合うか試してみるのが一番だけど、彼らが使ってるトリックは結構賢いよね。AIにコードを書かせると、必ずしも正しく書けるわけじゃないんだ。時にはバグがあったり、問題を完全に誤解したりすることもある。単純な対処法は、いくつかの解決策を生成して、それぞれをテストすることなんだけど、そうすれば少なくとも一つはうまくいく可能性が高くなる。ATLASは複数の試行を生成して、それぞれをテストスイートで実行するんだ。各リトライでは、前の試行で何が間違っていたかも教えてくれるから、同じミスを避けられるようにするんだ。ただ、コードを隔離された環境で実行して出力を確認して、終わるのを待つ必要があるから、結構時間がかかるんだよね。候補が増えると、その分手間も増えるし。だからATLASは不必要なテストを避けるための別のショートカットを持ってるんだ。単に解決策を生成して全部テストするのではなく、テストを実行する前にどれが正しい可能性が高いかを予測するんだ。ATLASは、書いたばかりのものの埋め込みをモデルに求めて、それが指紋みたいな役割を果たすんだ。似たようなコードは似たような指紋を生成するし、よく書かれた自信のある解決策は、混乱したバグのあるものとは異なる指紋を出すんだ。この指紋は、コストフィールドと呼ばれる別の小さなニューラルネットワークに入力されるんだ。この小さなネットワークは、すでにどの解決策が正しくてどれが間違っているかを知っている例で事前に訓練されていて、各指紋にスコアを割り当てることを学んだんだ。正しい解決策は低いスコアを、間違ったものは高いスコアをもらう。だから、プロセスは複数の解決策を生成して、指紋を取得して、各々にスコアを付けて、最も低いスコアのものだけをテストするって感じ。コストフィールドは、リポジトリによると約88%の確率で正しく選ぶんだ。

言語や分野によって大きく異なることが多いと思う。システムプログラミング(普通はC++やRust)では、試したオープンモデルとSonnet 4.5(4.6はあまり試してないけど)との間に大きな違いがあるのを感じる。正直なところ、大きなモデル(Opus 4.6みたいな)でも、結構苦労することが多い。もしかしたら、これらのオープンモデルのトレーニングデータには、こういうことがあまり反映されていないのかも?試したローカルモデル(minimax2.5、GLM-4.7、Quen3、3.5、-coderバリアント)は、構文的に意味のあるものをコンパイラに受け入れられるようにするのにかなりの時間を費やしていて、終わった頃には実際に問題を解決するための「勢い」がほとんど残っていない。ほとんどどんな変更でも、最もトリビアルなもの以外は、再び動かそうとするループに入ってしまって、その変更の意図を失ってしまうことが多い。私の懸念は、ここでの解決策として、後で比較するために同じ変更を行う複数のインスタンスを持つことが、コンパイラエラーや型、メモリ割り当て(「新しい」キーワードをちょっと追加するだけじゃダメだよ)に頭をぶつけるのに膨大な時間を費やすことになるんじゃないかってこと。ローカルのGPUパワーがたくさんあるから、それを実際に使いたいんだけど、トレーニングデータの使い方や、クラウドモデルに「送っている」コードのライセンスとの相互作用についてはすでに警戒している…。

これは競争の底辺だね。DeepSeekが他の全てを打ち負かしてる(シングルショットで)、そしてローカルの電気代だけで見ると約50%安い。 > DeepSeek V3.2 理論 86.2% ~$0.002 API、シングルショット > ATLAS V3 (pass@1-v(k=3)) 74.6% ~$0.004 ローカル電気代のみ、ベストオブ3 + 修正パイプライン

ローカルの電気代だけで見ると安い。これってどういう意味か説明してくれる?

このアプローチはDeepSeekでも使えるよ。ここでの革新は、たくさんの解決策を生成して、小さなモデルで有望な候補を選んでからテストするってことなんだ。それからエラーを生成モデルにフィードバックして、繰り返すんだ。ある意味、解決策に収束する遺伝的アルゴリズムみたいな感じだね。

いろんなオープンモデルを試したけど、Deepseek 3.2が唯一のSOTAに近い。

開発者には、MiniMaxやKimiなどを使って、知能が必要な現実のタスクに取り組むことを勧めるよ。欠点はすぐに現れるからね:推論トークンの使用がかなり増えるし、出力も遅くなるし、劣化が目に見えてわかる。残念ながら、今は払った分だけの価値があるって感じだね。でも、賢くモデルをルーティングしたり、推論の予算を考えたり、最大出力トークンを賢く使ったりすることで、たくさん節約できるから。アプリやプロンプトを最適化して出力トークンを減らすのも大事だよ。

うん、ランダムな非コーディングタスクではかなり悪い結果が出るよね。https://aibenchy.com/compare/minimax-minimax-m2-7-medium/moo...

SOTA以下のものは使わないよ。Opus 4.6のミディアムを試したけど、すぐに後悔した。ハイは結構めちゃくちゃになるからね。

キミはめっちゃいいと思うけど、ミニマックスはあんまりかな。

同意。彼らは8ヶ月以上前のフロンティアモデルと同じくらいだね。

ミニマックス2.7は大体のウェブ関連には問題ないよ。バックエンドではクラウドよりちょっと劣るけど、フロントエンドではすごくいい。複雑さが中級エンジニアの範囲を超えると、どれもダメになるけどね。

モデルよりもハーネスの方が重要だっていうさらなる証拠だね。

これは、アブレーションと複数回のパスを使って最終結果を改善するための実験なんだ。他にも同じ層を何度も通す技術が見つかってるけど、この技術はこの特定のモデルに対しては、パフォーマンスが良い一方で、時間がかかり、複雑さも増すみたい。ほとんどの人がこの技術を使うことはないと思うけど、面白いね。

オープンソースやローカルのLLMが大手AIプロバイダーを最終的に潰すことになるのかな?もしそうなら、いつ頃?基本的なチャットは見えるけど、コーディングや画像についてはまだわからない。

金融的な重力が、リターンが天文学的な期待に合わなくなったときに彼らを潰すだろう。

本当に大きなショートカットが推論で見つからない限り、素晴らしいモデルをローカルで動かすのは常に難しいだろう。PCのコストと電気代は、月20ドルのClaudeサブスクリプションに比べて通常はめちゃくちゃ高いから。

コーディングや画像処理には使えないけど、社交的には使えるよ。家でAIを使ってる人たちは、ほとんどが「禁止されたり制限されたりするかもしれないこと」に使ってる。

これが私の持論なんだけど、今秋にAppleがローカルで動くApple Intelligenceのバージョンをリリースして、ChatGPTよりも良くなると思う。理由は1) まだAIの提供がないから 2) すごいハードウェアを持っていて、今でもオープンモデルでほぼ実現できるから。これをAndroidで再現するのはしばらく無理だと思う。これがOpenAIを潰すだろうね。注意: ここでコーディングの話はしてないよ。最適化が進んで出力が安定すれば、ローカルハードウェアでも動かせるようになる。クラウドや他の友達のコストも下がるけど、5ドル払う理由がないよね、無料で手に入るのに。

変な「幾何学的レンズルーティング」って何?作り話のGPTっぽいね。

大きなコードの塊を生成するのは、エージェントに求めることじゃないことが多い。ログを調べたり、テスト失敗を説明するために何十ものソースファイルをスキャンするのが得意なんだよね。それをカバーするベンチマークはどれ?ビルドシステムやCLIのマスタリーをテストするデバッグベンチマークが欲しいな。

5060 Ti一台でLCBが74%だよ。タスクごとにAnthropicにお金を払ってるけど、こいつは電気代で動かしてる。インタラクティブなものには20分は厳しいね。

タスクに20分かかるなら、自分でコーディングした方がいいかも。ビル・ジェームズはLLMベンチマークのためのセイバーメトリクスについて本を書いてほしいな。

私の経験では、Claude Codeは正直言って微妙か、せいぜい普通って感じ。最近HNで持ち上げる投稿が多いけど、あれは guerrilla marketing のキャンペーンに違いないね。