概要
- SmolLM3 は、3Bパラメータ規模の高効率オープンソース言語モデル
- Llama-3.2-3BやQwen2.5-3Bを上回り、4Bモデルとも競合可能な性能
- 11兆トークン による多段階事前学習と独自の効率化アーキテクチャ
- 長文対応・推論モード など多彩な機能と6言語マルチリンガル対応
- 全工程・データ配合・設計思想を完全公開し、再現性と発展性を重視
SmolLM3: 3B規模の効率特化・高性能オープンモデル
- SmolLM3 は、3Bパラメータ規模で最高水準の性能を目指した完全オープンな言語モデル
- Llama-3.2-3B や Qwen2.5-3B を上回り、Qwen3やGemma3など4Bモデルと肩を並べる競争力
- ベースモデル と 推論対応Instructモデル を公開
- Base: https://hf.co/HuggingFaceTB/SmolLM3-3B-Base
- Instruct: https://hf.co/HuggingFaceTB/SmolLM3-3B
- 6言語 (英・仏・西・独・伊・葡)マルチリンガル対応
- コンテキスト長128k 対応(NoPE, YaRN活用)
アーキテクチャと訓練手法
- Transformerデコーダ アーキテクチャ+埋め込み層共有
- Grouped Query Attention(GQA) :Multi-headより効率的、KVキャッシュ削減
- NoPE (「RoPE to NoRoPE and Back Again」論文):4層ごとにRoPE除去、長文性能向上
- Intra-Document Masking :異文書間の情報漏洩防止、長文学習安定化
- Embedding層Weight Decay除去 :OLMo 2方式で学習安定性向上
- 検証済みアブレーション :各工夫が性能維持または向上を確認
- 訓練設定 :
- バッチサイズ:2.36Mトークン(シーケンス長4096)
- 学習率:2e-4、AdamW(β1:0.9, β2:0.95)
- WSDスケジューラ、ウォームアップ2000ステップ、最終10%で線形減衰
- nanotron (訓練)、 datatrove (データ処理)、 lighteval (評価)
- H100 GPU 384枚で24日間 分散訓練
データ配合と多段階事前学習
- 3段階事前学習 (SmolLM2方式継承、11.2兆トークン使用)
- Stage 1 (0T→8T):Web85%(多言語12%含)、Code12%、Math3%
- Stage 2 (8T→10T):Web75%、Code15%、Math10%(高品質データ追加)
- Stage 3 (10T→11.1T):Web63%、Code24%、Math13%(高品質データ増量)
- データ詳細・配合比 はnanotron設定ファイルで公開
- 中間チェックポイント・訓練ログ も共有予定
ミッドトレーニング:長文・推論能力強化
- 長文対応訓練 :
- 追加100Bトークンで4k→32k(RoPEθ=1.5M)、32k→64k(RoPEθ=5M)へ段階拡張
- コード・書籍・長文Webをアップサンプリング
- NoPE+長文データ+RoPE調整 で64kまで競争力、YaRNで128kまで拡張
- 推論能力訓練 :
- OpenThoughts3-1.2M や Llama-Nemotron-Post-Training-Dataset-v1.1 などから35Bトークン
- ChatMLテンプレート とラップドパッキングで構造過多を回避
- 4エポック(約140Bトークン)訓練
ポストトレーニング:デュアルモード指示モデル構築
- DeepSeek R1 や Qwen3 のような推論能力+指示追従モデルを完全公開レシピで再現
- Anchored Preference Optimization (APO) でアライメント調整
- チャットテンプレート :
- /think, /no_thinkフラグで推論・非推論モード切替
- 非推論時は空のthinkブロックを自動挿入(Qwen3類似)
- ツール呼び出し (XML/Python両対応)もテンプレートに明示
- システムメッセージ・メタデータを柔軟に切替可能
- SFT(Supervised Finetuning) :
- 推論・非推論両モードをバランス良く鍛えるデータ設計
- 1.8Bトークン (非推論1B、推論0.8B)、12種非推論・10種推論データセット
- 推論痕跡不足領域はQwen3-32Bを活用した合成データ生成で補完
- 数学・コード・一般推論・指示・多言語・ツール呼び出しを網羅
まとめ
- SmolLM3 は、効率・拡張性・再現性・多様性を追求した3B規模の新基準モデル
- 全設計・訓練・データ配合・アライメント手法を公開、研究・応用・再現性に最適
- 小型モデルの限界拡張 と オープンAIコミュニティの発展 を牽引