概要
- A.T.L.A.S は自己完結型AIコード生成・修正システム
- 14Bパラメータモデル で74.6%の高精度を実現
- APIやクラウド不要、1台のGPUで完結
- 段階的生成・自己検証・自動修正 の独自パイプライン
- 今後のロードマップ でさらなる精度・汎用性向上を目指す
A.T.L.A.S概要
- A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) は、凍結済みの小型LLMを 知的インフラ でラップし、最先端APIモデルに匹敵する性能を 低コスト ・ 自己完結型 で実現
- LiveCodeBench v5 で74.6% (pass@1-v(k=3))を達成、従来のV2(36-41%)から大幅向上
- APIコール・クラウド・外部データ送信不要、全てローカルGPU上で完結
- 1台のRTX 5060 Ti 16GB で動作、電気代のみがコスト
- 段階的生成(PlanSearch)・エネルギーベース検証(Geometric Lens)・自己修正(PR-CoT) によるパイプライン
ベンチマーク結果・コスト比較
- LiveCodeBench v5 :74.6% (pass@1-v(k=3)), 599タスク
- GPQA Diamond :47.0%、198タスク(科学知識推論)
- SciCode :14.7%、341タスク(科学コーディング)
- 他モデルとの比較 :
- DeepSeek V3.2 Reasoning:86.2%(API/有料)
- GPT-5:84.6%(API/高コスト)
- Claude 4.5 Sonnet:71.4%(API/高コスト)
- A.T.L.A.S V3 :74.6%、1タスク約$0.004(電気代のみ)
技術的特徴・パイプライン
-
PlanSearch :多様な計画と制約抽出による生成
-
BudgetForcing :生成トークン数の制御
-
Geometric Lens :5120次元自己埋め込みによる候補選別
-
Sandbox :コード実行による検証
-
Self-Test Gen & PR-CoT Repair :自己生成テストケースと多視点思考による自動修正
-
全段階でモデルは答えを見ずに自己検証・修正
- Phase 1 :生成(PlanSearch+BudgetForcing)
- Phase 2 :Lensルーティング(候補選別)
- Phase 3 :自己検証・修正(PR-CoT)
-
K3s上のllama-server で推論・自己埋め込み生成を統合
導入・セットアップ
- 推奨環境 :
- GPU VRAM:16GB以上(RTX 5060 Ti 16GBで実証済み)
- システムRAM:14GB以上
- Python 3.10+、RHEL 9 / Ubuntu 24
- インストール手順 :
- リポジトリclone、設定ファイル修正、スクリプト実行でセットアップ
- 詳細は
docs/SETUP.md参照
- 再現性 :
- Proxmox VM上のRHEL 9+RTX 5060 Ti 16GBで検証
- 他のNVIDIA GPUでもVRAM調整で対応可能
プロジェクト構成
benchmark/:ベンチマークスイート(V2/V3パイプライン)benchmark/v3/:V3各サブシステム(PlanSearch, PR-CoT等)rag-api/:Geometric Lens, RAG, キャッシュ等コアAPIllama-server/:パッチ済みllama.cppサーバーmanifests/:K3sデプロイ用マニフェストscripts/:インストール・管理スクリプトtests/:テストスイートdocs/:アーキテクチャ・セットアップ・トラブルシュート等
ドキュメント一覧
ARCHITECTURE.md:システム構成・データフローV3_ABLATION_STUDY.md:V3アブレーション解析SETUP.md:インストール・展開ガイドCONFIGURATION.md:設定リファレンスTROUBLESHOOTING.md:よくある問題と解決策API.md:APIエンドポイント解説
既知の制限・今後の課題
-
V3.1で改善予定の点 :
- LiveCodeBench最適化偏重 → 汎用性向上へ
- Geometric Lens (C(x))の訓練データ不足 → 実問題由来データで再訓練
- G(x)(メトリックテンソル)未活用 → 再設計または削除検討
- パイプラインが単一スレッド → タスク並列化対応
- SandboxAdapterのstdioバグ → V3.1で修正予定
-
V3.1新要素 :
- Qwen3.5-9B+DeltaNetアーキテクチャへのモデル入替
- マルチトークン予測による高速化
- Geometric Lensのオンライン再調整
- タスクレベル並列化
- コーディング以外の汎用ベンチマーク拡充
今後のベンチマーク・ロードマップ
- V3.1で評価予定の主なベンチマーク
- LiveCodeBench v5(コーディング)
- SciCode(科学コーディング)
- GPQA Diamond(科学推論)
- AA-LCR(長文推論)
- AA-Omniscience(知識・ハルシネーション率)
- Humanity's Last Exam(極限推論)
- CritPt(物理推論)
- Confidence Router によるタスク難易度判定・リソース配分
- 目標 :80-90% LCB pass@1-v(k=3)、高速化・汎用化
ライセンス
- A.T.L.A.S Source Available License v1.0 (詳細はLICENSE参照)
A.T.L.A.Sは、1台のGPUで自己完結・高精度なAIコード生成/修正を実現する、次世代のオープンソースAIインフラ。