世界を動かす技術を、日本語で。

トリニティ・ラージ:オープンな400BスパースMoEモデル

概要

  • Trinity Large は400BパラメータのスパースMoEモデルで、業界最先端レベルの性能を誇る。
  • 3種類 のバリアント(Preview/Base/TrueBase)を公開、各用途に最適化。
  • 効率的な訓練・推論 と先進的なデータキュレーションにより、他社より高速かつ高性能を実現。
  • コスト効率 も重視し、全体で約2,000万ドルで開発。
  • 研究用途 や実運用にも対応、OpenRouter等で無料利用可能。

Trinity Large: 400BパラメータMoEモデル開発の舞台裏

  • Trinity Nano PreviewTrinity Mini のリリース直後、 Trinity Large の訓練開始。
  • 初の大規模訓練、成功と失敗の両方を経験。
  • 3バリアント を公開:
    • Trinity-Large-Preview :軽度のポストトレーニング済み、チャット対応
    • Trinity-Large-Base :17Tトークン全量事前学習済みのベースモデル
    • TrueBase :10Tトークン時点、命令データ・LRアニーリングなし、本当のベースライン
  • Trinity-Large は400BパラメータのスパースMoE、1トークンあたり13Bパラメータ活性化。
  • 256エキスパート中4つ活性化 (1.56%スパース)、Llama-4-Maverickに次ぐ高スパース比。
  • 設計変更 :安定性向上のため、デンス層を3→6に増加。

性能・効率・訓練手法

  • ベンチマーク :数学・コーディング・科学的推論・知識吸収で同クラス他社モデルを上回る。
  • 訓練環境 :Nvidia B300 GPU 2048台使用、公開情報では最大規模。
    • 30日超の高速訓練、コスト効率重視。
    • スパース性 と効率的アテンションで2-3倍高速推論。
  • MoEルーティング制御 :エキスパートごとにバイアス調整、tanhクリップとモメンタムで安定化。
  • z-loss導入 :LMヘッドのロジット上昇を抑制、訓練安定化。
  • バッチサイズ拡大 :5Tトークン以降バッチ増、スパース性活用で効率維持。
  • 訓練曲線 :スムーズな損失カーブ、安定した訓練完了(33日間)。

データセットとキュレーション

  • DatologyAI による17Tトークンデータ、3フェーズ(10T/4T/3T)で構成。
  • STEM・プログラミング・推論・多言語 データを14言語で網羅。
  • 8兆超トークンの合成データ 生成、最先端リフレーズ技術活用。
  • Trinity Large 向けに特化した高度なキュレーション手法を採用。
  • 評価結果 :下流タスクでフロンティアレベルの性能を実証。

Trinity-Large-Previewの特徴

  • 推論効率 の高さ、RLにも有利。
  • 現時点では非推論型(instruct)モデル、創作・ストーリーテリング・チャット・音声アシスタントで高性能。
  • OpenCode・Cline・Kilo Code 等エージェント環境での操作性強化。
  • 無料公開 (OpenRouterで2026年2月まで)。
  • ベンチマーク :Llama 4 Maverick Instructと同等水準、今後も評価追加予定。

コスト・開発体制

  • 全体コスト:約2,000万ドル (計算資源・人件費・データ・運用含む)。
  • 6か月間で4モデル開発、限られたリソースで効率的に運用。
  • 大手フロンティア研究所に比べ低コスト、再試行余地も限定的。

TrueBaseについて

  • 命令データ未使用、本当のベースライン
  • RLHFやチャット形式前の純粋な事前学習成果 を研究可能。
  • 高品質事前学習の純粋な出発点 として価値提供。

利用方法・導入先

  • OpenRouterで即時利用可能 (プレビュー期間中無料)。
  • Kilo Code・Cline・OpenCode と連携、コーディング用途にも即対応。
  • 現状はポストトレイン初期段階、特にコーディングエージェントでは粗削りな面も。
  • 日常エージェント用途では高い実用性

コンテキスト長・ホスティング

  • Trinity Largeは512kコンテキスト対応
  • プレビューAPIは128kコンテキスト・8bit量子化 で提供中、推論基盤調整中。
  • ホスティング基盤のプレビューも兼ねて公開

モデル入手先・利用案内

今後への期待

  • 実利用でのフィードバック歓迎、ベンチマーク外の現場利用でモデル改善を促進。
  • 「Trinityはあなたが所有できるモデル」 という理念、フロンティア級モデルの民主化への誇り。

Hackerたちの意見

「真のベース」モデルを使って研究できるのが特に楽しみだなぁ。(https://huggingface.co/arcee-ai/Trinity-Large-TrueBase)

そのモデルと「チャット」して、どんな感じか見てみたいな。

33日間で約2000万かけてトレーニングしたらしいよ(インフラだけじゃなくて、6ヶ月間の人件費も含まれてるみたい)。モデルはQWENやDeepseekに近づいてきてる。かなりすごいね。

同じクラスのモデルをトレーニングするコストやスケーリングはどんどん下がってる気がするけど、スコアがかなり良いモデルのトレーニングは壁にぶつかってる感じ。例えば、gemini-3-proは今日のlmarenaテキストチャートで1488点でトップ、gpt-4o-2024-05-13は1346点。これは1.5年で70%の勝率(50%が勝つ確率)だね。一方、去年の夏にOpenAIが配布したオープンウェイトのものもその間にスコアが入ってる。新しいベンチマークやベンチマークバージョンは例外みたいで、最初は低いけどすぐに飽和するか、しばらくすると同じ壁にぶつかるみたい。

Llama 4みたいに「1人のアクティブエキスパート」なんてバカなことはしなかったけど、256のうち4ってかなりスカスカだよね。ベンチマークでトレーニングしない限り、DeepseekやGLMレベルのパフォーマンスにはならないと思う。これは良い判断じゃなかったね。他のモデルはこんなことしてないし。

彼らが意図的に水を濁してるってはっきり言うよ。成功したトレーニングを実行するには、失敗した実験も含めてすべてをカウントしなきゃいけない。彼らはその定義で100百万以上を使ってこのモデルをトレーニングしたし、成功するまでの失敗した実験を含めない定義は、せいぜい不誠実で、最悪の場合は投資家を騙すための嘘だよ。いいや、DeepseekはDeepseek V3に5.5百万しか使ってないわけじゃない。Geminiは「完全にTPUでトレーニングされた」わけじゃない。最終的なトレーニングランをTPUでやるために、GPUで何百もの実験をしたんだ。GCPには何百万ものGPUがあって、Geminiチームはそれにアクセスして毎日使ってるに決まってる。Deepseek V3を作るための総コストも、最終的なトレーニングランに至るまでに必要なものをすべてカウントすると100-400百万の範囲だよ。編集:(このサイトの「投稿が早すぎる」ってやつが本当にバカだから投稿できない)君みたいな人から信頼できる情報を得る唯一の方法は、ネットで何か間違ったことを大声で言うことだね。これからはもっと積極的にそうして、君みたいな人に真実を正してもらうように促すよ。たとえTPUだけを使ったとしても、彼らが主張するよりも何倍も多く使ったのは確かだよ。「失敗したランもカウントするからね」

無料のGoogleやChatGPT、他のモデルがあるのに、なんでそんなことするの?最終的な目標に向けてお金の無駄だし、地球を破壊するだけだよ。

2048のNvidia B300 GPUで、平均価格が1時間あたり6ドルだとすると、クラスター全体で1時間あたり12,288ドルになるね。33日間、24時間計算すると、割引なしで970万ドルになる。そうすると、6ヶ月間の給料に1030万ドル残ることになる。これは、年収20万ドルの従業員103人か、年収40万ドルの従業員51人分だね。

この場合の「オープン」って具体的に何を指してるの?ウェイトとデータ、それともウェイトだけ?

いつもオープンウェイトだよね。

400Bパラメータのモデルだけど、トークンごとに13Bのアクティブパラメータを持つスパースMoEモデルだと、128GBの統合RAMを搭載したNVIDIA DGX Sparkでうまく動くかな?それとも、スパースMoEでもフルモデルをRAMに保持する必要があるの?

MoEでも、個々のエキスパートをVRAMで評価しながらモデルをRAMに保持するのはちょっと妥協が必要だね。エキスパートはトークンごとにVRAMに入れ替えられるから、RAMとVRAMの帯域幅が重要になる。RAMより大きいモデルだと、その帯域幅のボトルネックがSSDインターフェースに押し込まれる。少なくとも読み取り専用で、書き込みはないけど、どんなに速いSSDでもRAMにはかなわないからね。それでも、実際にやってる人たちもいるみたい。https://github.com/lyogavin/airllmがその一例だよ。

mmap()で動かせるけど、ちょっと遅いんだよね。4ビット量子化だと、モデルサイズとRAMのバランスがまあまあ良いから、速いSSDがあればどんな感じか試してみてもいいかも。ただ、4ビット量子化のモデルは、200Bパラメータの8ビット量子化モデルよりも良くないんじゃないかって疑念がよくある。モデルや使用ケースによるけどね…。残念ながら、SOTAモデルのローカル推論はRAMの価格や企業のGPU需要に阻まれて、選択肢が少なくなってる。今のところ、Mac Studioシステムを買って、分散推論を実行するのが一番の選択肢かも(MLXがこれをサポートしてるし)。それか、13,000ドルくらいの512GB Mac Studio M4を買うとか。

128GBのVRAMがあれば、256Bサイズのモデルには十分なスペースが確保できるよ。でも400BはDGX Sparkには大きすぎるね。2台をつなげてテンソルパラレルを使わないと無理だね。

比較チャートでMaverickを使ってるのはちょっと疑問だな。岩の山とLLMを比べてるようなもんだよ。

比較できるベースモデルはあまりないね。

彼らが256のうち4のスパース性をやってるのは、財政的な制約から来た悪い決断だよ。トレーニングコスト(FLOPs)= 6 * アクティブパラメータ * トータルトークン。MoEエキスパートのパラメータ数を低く抑えることで、トレーニングコストを削減してるんだ。これは良い判断じゃなかったと思う。彼らは他の主要なラボのようにチンチラを超えてトレーニングすべきだったし、スパース性を2%以上に保つべきだった。Kimi K2も2%以上だし、GLMは5%で、サイズに対してはかなり高価(かつ高性能)だよ。Arceeは逆の道を行ったね。彼らは400Bの巨大なモデルをトレーニングしたけど(GLM-4.5/4.6/4.7よりも大きいし、Qwen3 235B A23Bよりも大きい)、アクティブパラメータは17Bしかなくて、QwenやGLMよりも小さいんだ。しかも、トレーニングしたトークンも17Tで、他のモデルは20-30T以上なのに。アンダートレーニングでアンダーサイズ(アクティブパラメータの観点で)で、パフォーマンスも他のモデルよりずっと悪い。制約があったことを考えれば悪くはないけど、競争力を持つためにはアクティブエキスパートを倍にする必要があるね(256のうち4じゃなくて8に)。それだと計算コストが大体倍になるけど。今の彼らのマーケティング戦略は、アクティブパラメータを少なくして推論を安くすること、全体のパラメータを増やしてアクティブパラメータの量に対して賢くすること、でもH200クラスターに収まるサイズにすることなんだ。これが有効なニッチ戦略だと思うのかな?ターゲットオーディエンスは基本的に「GLM/Qwen/Deepseekの全ての知能は必要ないけど、すでに持ってるH200クラスターでより多くの顧客にサービスを提供したい人たち」だね。確かに有効なニッチだけど、かなり小さいね。

フェーズ3で損失がこんなに下がったのは何をしたから?それに、なんでLlama 4 Maverickと比較してるの?あれ、失敗作じゃなかったっけ?

損失を直接比較するのは無理だよ。各フェーズでデータ分布が変わってるから(たぶん)。10兆トークンを超えたあたりからデータ分布が変わるのは100%確実だけど、他のフェーズの変更もデータ分布の変更が含まれてるかはわからない。

RSDBの開発中に、かなりのパフォーマンス向上が見られたので、トリニティ大規模トレーニングのフェーズ3で統合することに決めたんだ。フェーズ2とフェーズ3のデータ分布が違うから直接比較は難しいけど、全体的な効果は顕著だったよ:BatchHetが4.23倍減少して、ステップごとの分散が2.4倍減少した(図1参照)。デフォルトのパッキング戦略と比べて、かなりの改善だね。RSDBなしのトレーニングでは、損失分布の高次モーメントがずっと高い値を示すことがわかっていて、これはトレーニング中のネットワークの不安定性と関連してると思う。 技術報告書の9ページにもっと詳しいことが載ってるけど、データ準備の方法や他の最適化を見つけたみたいで、全体的にうまくいったみたい。特定の何かが良かったわけじゃないと思う。Llama 4については、同じくらいのサイズのモデルとして言及されてただけで、品質比較の意図はなかったと思う。Llama 4はスパース性が注目されたけど、パフォーマンスや評価はイマイチだった。技術的に達成したことはしっかりしてて、役立つ研究だったよ。

アメリカからこんなオープンソースモデルが出てくるのはすごく新鮮だね。OSS-120BやGLM air 4.5に対抗できる100Bくらいのサイズのモデルが欲しいな。

「パラメータあたりのパフォーマンスを最適化して、Apache-2.0の下でウェイトをリリースします。」 どうやってマネタイズするつもりなんだろう?

微調整やホスティングのコンサルティング、他のサービスを売ってるんじゃないかな?彼らは自分たちのモデルで推論サービスも提供してるみたいで、明らかにオープンウェイトモデルとして商品化されるけど、元のラボから買いたい人もいると思う。でも、オープンウェイトモデルを提供してると、顧客は自己ホスティングや微調整をしたい人たちになるから、そのためのサービスを提供してるかもしれないね。

別のアメリカの研究所がリングに入るのを見るのはすごくワクワクする!最初のリリースでSOTAじゃなくても、挑戦してるってだけでオープンソースAIにとっては素晴らしいことだよ。

openrouterに無料プレビューがあるよ: https://openrouter.ai/arcee-ai/trinity-large-preview:free