モデルカード、興味がある人向けに: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7... 自分の中では、彼らが説明しているモデルアーキテクチャを、オープンウェイトの先駆けたち(Deepseek、Qwen、GLM、Kimi)と比べてるんだ。正直なところ、技術的には「まあまあ」って感じ。- 両方のモデルは標準的なGrouped-Query Attention(64クエリヘッド、8 KVヘッド)を使ってる。カードには、GPT3からの古い最適化を使ってるって書いてあって、バンドウィンドウ(スパース、128トークン)と完全密なアテンションパターンを交互に使ってるんだ。RoPEをYaRNで拡張して(131Kのコンテキストウィンドウ用)。だから、Deepseekの特別なMulti-head Latent Attentionや、GQAの他の改善点を活用してないみたい。- 両方のモデルは標準的なMoEトランスフォーマー。120Bモデル(116.8Bトータル、5.1Bアクティブ)は128のエキスパートを使ってTop-4ルーティングをしてる。Gated SwiGLUアクティベーションを使ってるみたいで、カードには「非伝統的」って書いてあるけど、クランプや残差接続の影響があるみたい。Deepseekの「共有エキスパート」(一般的なパターン用)や「ルーティングエキスパート」(専門化用)のアーキテクチャ改善、Qwenの負荷分散戦略なども使ってない。- 個人的に一番興味深いのは、彼らの量子化ソリューションだと思う。モデルパラメータの90%以上をMXFP4フォーマット(4.25ビット/パラメータ)に量子化して、120Bモデルを単一の80GB GPUに収めることができたんだ、これはかなりクールだね。でも、Unslothの有名な1.58ビット量子化もあるし :) つまり、エージェント行動や推論のためのトレーニングは間違いなく素晴らしいけど、実際の技術的進歩は「ポケットにしまってる」感じだね。