トリニティ・ラージ：オープンな400BスパースMoEモデル

2026年1月28日原文(arcee.ai)

概要

Trinity Large は400BパラメータのスパースMoEモデルで、業界最先端レベルの性能を誇る。
3種類 のバリアント（Preview/Base/TrueBase）を公開、各用途に最適化。
効率的な訓練・推論 と先進的なデータキュレーションにより、他社より高速かつ高性能を実現。
コスト効率 も重視し、全体で約2,000万ドルで開発。
研究用途 や実運用にも対応、OpenRouter等で無料利用可能。

Trinity Large: 400BパラメータMoEモデル開発の舞台裏

Trinity Nano Preview と Trinity Mini のリリース直後、 Trinity Large の訓練開始。
初の大規模訓練、成功と失敗の両方を経験。
3バリアント を公開：
- Trinity-Large-Preview ：軽度のポストトレーニング済み、チャット対応
- Trinity-Large-Base ：17Tトークン全量事前学習済みのベースモデル
- TrueBase ：10Tトークン時点、命令データ・LRアニーリングなし、本当のベースライン
Trinity-Large は400BパラメータのスパースMoE、1トークンあたり13Bパラメータ活性化。
256エキスパート中4つ活性化 （1.56%スパース）、Llama-4-Maverickに次ぐ高スパース比。
設計変更 ：安定性向上のため、デンス層を3→6に増加。

性能・効率・訓練手法

ベンチマーク ：数学・コーディング・科学的推論・知識吸収で同クラス他社モデルを上回る。
訓練環境 ：Nvidia B300 GPU 2048台使用、公開情報では最大規模。
- 30日超の高速訓練、コスト効率重視。
- スパース性 と効率的アテンションで2-3倍高速推論。
MoEルーティング制御 ：エキスパートごとにバイアス調整、tanhクリップとモメンタムで安定化。
z-loss導入 ：LMヘッドのロジット上昇を抑制、訓練安定化。
バッチサイズ拡大 ：5Tトークン以降バッチ増、スパース性活用で効率維持。
訓練曲線 ：スムーズな損失カーブ、安定した訓練完了（33日間）。

データセットとキュレーション

DatologyAI による17Tトークンデータ、3フェーズ（10T/4T/3T）で構成。
STEM・プログラミング・推論・多言語 データを14言語で網羅。
8兆超トークンの合成データ 生成、最先端リフレーズ技術活用。
Trinity Large 向けに特化した高度なキュレーション手法を採用。
評価結果 ：下流タスクでフロンティアレベルの性能を実証。

Trinity-Large-Previewの特徴

推論効率 の高さ、RLにも有利。
現時点では非推論型（instruct）モデル、創作・ストーリーテリング・チャット・音声アシスタントで高性能。
OpenCode・Cline・Kilo Code 等エージェント環境での操作性強化。
無料公開 （OpenRouterで2026年2月まで）。
ベンチマーク ：Llama 4 Maverick Instructと同等水準、今後も評価追加予定。

コスト・開発体制

全体コスト：約2,000万ドル （計算資源・人件費・データ・運用含む）。
6か月間で4モデル開発、限られたリソースで効率的に運用。
大手フロンティア研究所に比べ低コスト、再試行余地も限定的。

TrueBaseについて

命令データ未使用、本当のベースライン。
RLHFやチャット形式前の純粋な事前学習成果 を研究可能。
高品質事前学習の純粋な出発点 として価値提供。

利用方法・導入先

OpenRouterで即時利用可能 （プレビュー期間中無料）。
Kilo Code・Cline・OpenCode と連携、コーディング用途にも即対応。
現状はポストトレイン初期段階、特にコーディングエージェントでは粗削りな面も。
日常エージェント用途では高い実用性。

コンテキスト長・ホスティング

Trinity Largeは512kコンテキスト対応。
プレビューAPIは128kコンテキスト・8bit量子化 で提供中、推論基盤調整中。
ホスティング基盤のプレビューも兼ねて公開。

モデル入手先・利用案内

モデル重み ：
API/チャット ：chat.arcee.ai
ドキュメント ：docs.arcee.ai
OpenRouter ：openrouter.ai/arcee-ai/trinity-large-preview

今後への期待

実利用でのフィードバック歓迎、ベンチマーク外の現場利用でモデル改善を促進。
「Trinityはあなたが所有できるモデル」 という理念、フロンティア級モデルの民主化への誇り。

Hackerたちの意見

「真のベース」モデルを使って研究できるのが特に楽しみだなぁ。（https://huggingface.co/arcee-ai/Trinity-Large-TrueBase）

└

そのモデルと「チャット」して、どんな感じか見てみたいな。

33日間で約2000万かけてトレーニングしたらしいよ（インフラだけじゃなくて、6ヶ月間の人件費も含まれてるみたい）。モデルはQWENやDeepseekに近づいてきてる。かなりすごいね。

└

同じクラスのモデルをトレーニングするコストやスケーリングはどんどん下がってる気がするけど、スコアがかなり良いモデルのトレーニングは壁にぶつかってる感じ。例えば、gemini-3-proは今日のlmarenaテキストチャートで1488点でトップ、gpt-4o-2024-05-13は1346点。これは1.5年で70%の勝率（50%が勝つ確率）だね。一方、去年の夏にOpenAIが配布したオープンウェイトのものもその間にスコアが入ってる。新しいベンチマークやベンチマークバージョンは例外みたいで、最初は低いけどすぐに飽和するか、しばらくすると同じ壁にぶつかるみたい。

└

Llama 4みたいに「1人のアクティブエキスパート」なんてバカなことはしなかったけど、256のうち4ってかなりスカスカだよね。ベンチマークでトレーニングしない限り、DeepseekやGLMレベルのパフォーマンスにはならないと思う。これは良い判断じゃなかったね。他のモデルはこんなことしてないし。

└

彼らが意図的に水を濁してるってはっきり言うよ。成功したトレーニングを実行するには、失敗した実験も含めてすべてをカウントしなきゃいけない。彼らはその定義で100百万以上を使ってこのモデルをトレーニングしたし、成功するまでの失敗した実験を含めない定義は、せいぜい不誠実で、最悪の場合は投資家を騙すための嘘だよ。いいや、DeepseekはDeepseek V3に5.5百万しか使ってないわけじゃない。Geminiは「完全にTPUでトレーニングされた」わけじゃない。最終的なトレーニングランをTPUでやるために、GPUで何百もの実験をしたんだ。GCPには何百万ものGPUがあって、Geminiチームはそれにアクセスして毎日使ってるに決まってる。Deepseek V3を作るための総コストも、最終的なトレーニングランに至るまでに必要なものをすべてカウントすると100-400百万の範囲だよ。編集:（このサイトの「投稿が早すぎる」ってやつが本当にバカだから投稿できない）君みたいな人から信頼できる情報を得る唯一の方法は、ネットで何か間違ったことを大声で言うことだね。これからはもっと積極的にそうして、君みたいな人に真実を正してもらうように促すよ。たとえTPUだけを使ったとしても、彼らが主張するよりも何倍も多く使ったのは確かだよ。「失敗したランもカウントするからね」

└

無料のGoogleやChatGPT、他のモデルがあるのに、なんでそんなことするの？最終的な目標に向けてお金の無駄だし、地球を破壊するだけだよ。

└

2048のNvidia B300 GPUで、平均価格が1時間あたり6ドルだとすると、クラスター全体で1時間あたり12,288ドルになるね。33日間、24時間計算すると、割引なしで970万ドルになる。そうすると、6ヶ月間の給料に1030万ドル残ることになる。これは、年収20万ドルの従業員103人か、年収40万ドルの従業員51人分だね。

この場合の「オープン」って具体的に何を指してるの？ウェイトとデータ、それともウェイトだけ？

└

いつもオープンウェイトだよね。

400Bパラメータのモデルだけど、トークンごとに13Bのアクティブパラメータを持つスパースMoEモデルだと、128GBの統合RAMを搭載したNVIDIA DGX Sparkでうまく動くかな？それとも、スパースMoEでもフルモデルをRAMに保持する必要があるの？

└

MoEでも、個々のエキスパートをVRAMで評価しながらモデルをRAMに保持するのはちょっと妥協が必要だね。エキスパートはトークンごとにVRAMに入れ替えられるから、RAMとVRAMの帯域幅が重要になる。RAMより大きいモデルだと、その帯域幅のボトルネックがSSDインターフェースに押し込まれる。少なくとも読み取り専用で、書き込みはないけど、どんなに速いSSDでもRAMにはかなわないからね。それでも、実際にやってる人たちもいるみたい。https://github.com/lyogavin/airllmがその一例だよ。

Hacker Newsで議論の続きを見る

ハクソク