$500のGPUがコーディングベンチマークでClaude Sonnetを上回る

2026年3月27日原文(github.com)

概要

A.T.L.A.S は自己完結型AIコード生成・修正システム
14Bパラメータモデル で74.6%の高精度を実現
APIやクラウド不要、1台のGPUで完結
段階的生成・自己検証・自動修正 の独自パイプライン
今後のロードマップ でさらなる精度・汎用性向上を目指す

A.T.L.A.S概要

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) は、凍結済みの小型LLMを 知的インフラ でラップし、最先端APIモデルに匹敵する性能を 低コスト ・ 自己完結型 で実現
LiveCodeBench v5 で74.6% (pass@1-v(k=3))を達成、従来のV2(36-41%)から大幅向上
APIコール・クラウド・外部データ送信不要、全てローカルGPU上で完結
1台のRTX 5060 Ti 16GB で動作、電気代のみがコスト
段階的生成（PlanSearch）・エネルギーベース検証（Geometric Lens）・自己修正（PR-CoT） によるパイプライン

ベンチマーク結果・コスト比較

LiveCodeBench v5 ：74.6% (pass@1-v(k=3)), 599タスク
GPQA Diamond ：47.0%、198タスク（科学知識推論）
SciCode ：14.7%、341タスク（科学コーディング）
他モデルとの比較 ：
- DeepSeek V3.2 Reasoning：86.2%（API/有料）
- GPT-5：84.6%（API/高コスト）
- Claude 4.5 Sonnet：71.4%（API/高コスト）
- A.T.L.A.S V3 ：74.6%、1タスク約$0.004（電気代のみ）

技術的特徴・パイプライン

PlanSearch ：多様な計画と制約抽出による生成
BudgetForcing ：生成トークン数の制御
Geometric Lens ：5120次元自己埋め込みによる候補選別
Sandbox ：コード実行による検証
Self-Test Gen & PR-CoT Repair ：自己生成テストケースと多視点思考による自動修正
全段階でモデルは答えを見ずに自己検証・修正
- Phase 1 ：生成（PlanSearch＋BudgetForcing）
- Phase 2 ：Lensルーティング（候補選別）
- Phase 3 ：自己検証・修正（PR-CoT）
K3s上のllama-server で推論・自己埋め込み生成を統合

導入・セットアップ

推奨環境 ：
- GPU VRAM：16GB以上（RTX 5060 Ti 16GBで実証済み）
- システムRAM：14GB以上
- Python 3.10+、RHEL 9 / Ubuntu 24
インストール手順 ：
- リポジトリclone、設定ファイル修正、スクリプト実行でセットアップ
- 詳細はdocs/SETUP.md参照
再現性 ：
- Proxmox VM上のRHEL 9＋RTX 5060 Ti 16GBで検証
- 他のNVIDIA GPUでもVRAM調整で対応可能

プロジェクト構成

benchmark/：ベンチマークスイート（V2/V3パイプライン）
benchmark/v3/：V3各サブシステム（PlanSearch, PR-CoT等）
rag-api/：Geometric Lens, RAG, キャッシュ等コアAPI
llama-server/：パッチ済みllama.cppサーバー
manifests/：K3sデプロイ用マニフェスト
scripts/：インストール・管理スクリプト
tests/：テストスイート
docs/：アーキテクチャ・セットアップ・トラブルシュート等

ドキュメント一覧

ARCHITECTURE.md：システム構成・データフロー
V3_ABLATION_STUDY.md：V3アブレーション解析
SETUP.md：インストール・展開ガイド
CONFIGURATION.md：設定リファレンス
TROUBLESHOOTING.md：よくある問題と解決策
API.md：APIエンドポイント解説

既知の制限・今後の課題

V3.1で改善予定の点 ：
- LiveCodeBench最適化偏重 → 汎用性向上へ
- Geometric Lens (C(x))の訓練データ不足 → 実問題由来データで再訓練
- G(x)（メトリックテンソル）未活用 → 再設計または削除検討
- パイプラインが単一スレッド → タスク並列化対応
- SandboxAdapterのstdioバグ → V3.1で修正予定
V3.1新要素 ：
- Qwen3.5-9B＋DeltaNetアーキテクチャへのモデル入替
- マルチトークン予測による高速化
- Geometric Lensのオンライン再調整
- タスクレベル並列化
- コーディング以外の汎用ベンチマーク拡充

今後のベンチマーク・ロードマップ

V3.1で評価予定の主なベンチマーク
- LiveCodeBench v5（コーディング）
- SciCode（科学コーディング）
- GPQA Diamond（科学推論）
- AA-LCR（長文推論）
- AA-Omniscience（知識・ハルシネーション率）
- Humanity's Last Exam（極限推論）
- CritPt（物理推論）
Confidence Router によるタスク難易度判定・リソース配分
目標：80-90% LCB pass@1-v(k=3)、高速化・汎用化

ライセンス

A.T.L.A.S Source Available License v1.0 （詳細はLICENSE参照）

A.T.L.A.Sは、1台のGPUで自己完結・高精度なAIコード生成/修正を実現する、次世代のオープンソースAIインフラ。

Hackerたちの意見

いつも疑いの目で見ちゃうんだよね。ベンチマークをクリアできても、実際に使うと全然役に立たないことが多いから、超一般的なモデルとは違って。けど、モデルをスリム化する可能性にはワクワクしてるよ。

└

自分に合うか試してみるのが一番だけど、彼らが使ってるトリックは結構賢いよね。AIにコードを書かせると、必ずしも正しく書けるわけじゃないんだ。時にはバグがあったり、問題を完全に誤解したりすることもある。単純な対処法は、いくつかの解決策を生成して、それぞれをテストすることなんだけど、そうすれば少なくとも一つはうまくいく可能性が高くなる。ATLASは複数の試行を生成して、それぞれをテストスイートで実行するんだ。各リトライでは、前の試行で何が間違っていたかも教えてくれるから、同じミスを避けられるようにするんだ。ただ、コードを隔離された環境で実行して出力を確認して、終わるのを待つ必要があるから、結構時間がかかるんだよね。候補が増えると、その分手間も増えるし。だからATLASは不必要なテストを避けるための別のショートカットを持ってるんだ。単に解決策を生成して全部テストするのではなく、テストを実行する前にどれが正しい可能性が高いかを予測するんだ。ATLASは、書いたばかりのものの埋め込みをモデルに求めて、それが指紋みたいな役割を果たすんだ。似たようなコードは似たような指紋を生成するし、よく書かれた自信のある解決策は、混乱したバグのあるものとは異なる指紋を出すんだ。この指紋は、コストフィールドと呼ばれる別の小さなニューラルネットワークに入力されるんだ。この小さなネットワークは、すでにどの解決策が正しくてどれが間違っているかを知っている例で事前に訓練されていて、各指紋にスコアを割り当てることを学んだんだ。正しい解決策は低いスコアを、間違ったものは高いスコアをもらう。だから、プロセスは複数の解決策を生成して、指紋を取得して、各々にスコアを付けて、最も低いスコアのものだけをテストするって感じ。コストフィールドは、リポジトリによると約88%の確率で正しく選ぶんだ。

└

言語や分野によって大きく異なることが多いと思う。システムプログラミング（普通はC++やRust）では、試したオープンモデルとSonnet 4.5（4.6はあまり試してないけど）との間に大きな違いがあるのを感じる。正直なところ、大きなモデル（Opus 4.6みたいな）でも、結構苦労することが多い。もしかしたら、これらのオープンモデルのトレーニングデータには、こういうことがあまり反映されていないのかも？試したローカルモデル（minimax2.5、GLM-4.7、Quen3、3.5、-coderバリアント）は、構文的に意味のあるものをコンパイラに受け入れられるようにするのにかなりの時間を費やしていて、終わった頃には実際に問題を解決するための「勢い」がほとんど残っていない。ほとんどどんな変更でも、最もトリビアルなもの以外は、再び動かそうとするループに入ってしまって、その変更の意図を失ってしまうことが多い。私の懸念は、ここでの解決策として、後で比較するために同じ変更を行う複数のインスタンスを持つことが、コンパイラエラーや型、メモリ割り当て（「新しい」キーワードをちょっと追加するだけじゃダメだよ）に頭をぶつけるのに膨大な時間を費やすことになるんじゃないかってこと。ローカルのGPUパワーがたくさんあるから、それを実際に使いたいんだけど、トレーニングデータの使い方や、クラウドモデルに「送っている」コードのライセンスとの相互作用についてはすでに警戒している…。

これは競争の底辺だね。DeepSeekが他の全てを打ち負かしてる（シングルショットで）、そしてローカルの電気代だけで見ると約50%安い。 > DeepSeek V3.2 理論 86.2% ~$0.002 API、シングルショット > ATLAS V3 (pass@1-v(k=3)) 74.6% ~$0.004 ローカル電気代のみ、ベストオブ3 + 修正パイプライン

└

ローカルの電気代だけで見ると安い。これってどういう意味か説明してくれる？

└

このアプローチはDeepSeekでも使えるよ。ここでの革新は、たくさんの解決策を生成して、小さなモデルで有望な候補を選んでからテストするってことなんだ。それからエラーを生成モデルにフィードバックして、繰り返すんだ。ある意味、解決策に収束する遺伝的アルゴリズムみたいな感じだね。

└

いろんなオープンモデルを試したけど、Deepseek 3.2が唯一のSOTAに近い。

開発者には、MiniMaxやKimiなどを使って、知能が必要な現実のタスクに取り組むことを勧めるよ。欠点はすぐに現れるからね：推論トークンの使用がかなり増えるし、出力も遅くなるし、劣化が目に見えてわかる。残念ながら、今は払った分だけの価値があるって感じだね。でも、賢くモデルをルーティングしたり、推論の予算を考えたり、最大出力トークンを賢く使ったりすることで、たくさん節約できるから。アプリやプロンプトを最適化して出力トークンを減らすのも大事だよ。

└

うん、ランダムな非コーディングタスクではかなり悪い結果が出るよね。https://aibenchy.com/compare/minimax-minimax-m2-7-medium/moo...

└

SOTA以下のものは使わないよ。Opus 4.6のミディアムを試したけど、すぐに後悔した。ハイは結構めちゃくちゃになるからね。

└

キミはめっちゃいいと思うけど、ミニマックスはあんまりかな。

└

同意。彼らは8ヶ月以上前のフロンティアモデルと同じくらいだね。

Hacker Newsで議論の続きを見る

ハクソク