概要
- IBM が企業向けに特化した Granite 4.1 オープンソース言語モデルをリリース
- 3種類のサイズ、 Apache 2.0ライセンス、15兆トークンで徹底的に訓練
- データ品質と訓練パイプラインへの強いこだわり
- 小型モデルでも従来品を上回るベンチマーク結果
- 実運用を見据えた設計と、厳格なデータフィルタリング・強化学習
IBM Granite 4.1:企業向けオープンソースLLMの新基準
- Granite 4.1 は企業利用を想定した 言語モデルファミリー
- 3B、8B、30B の3サイズ展開、全モデル Apache 2.0ライセンス
- 15兆トークンで訓練、 データ品質に徹底的に注力
- Denseアーキテクチャ採用、 MoEや複雑な推論チェーンは不使用
- 8Bモデル が従来の32B MoEモデル(Granite 4.0-H-Small)を多くのベンチマークで上回る
- モデルの進化は パラメータ数の単純拡大ではなく、訓練・データ品質の向上 によるもの
ベンチマーク結果と評価
- ArenaHard (GPT-4による実世界チャット品質評価)で 8B instructが69.0 を記録
- BFCL V3 (ツールコーリング)で 8Bが68.3、32B MoEは64.7
- GSM8K (小学生レベルの数学推論)、 8Bが92.5 を達成
- 他の主要ベンチマーク(AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP)でも 一貫して高評価
- 小型・シンプル・高密度モデル の優位性を証明
訓練パイプラインとデータ戦略
- 3B、8B、30B 全モデルで同一の デコーダオンリーDense Transformer設計
- 5段階の訓練フェーズで データミックスと学習率を段階的に調整
- Phase 1:CommonCrawl 59%、コード20%、数学7%
- Phase 2:数学35%、コード30%に増加
- Phase 3/4:Chain-of-thought推論や命令データを追加
- Phase 5: コンテキストウィンドウを最大512Kトークンへ拡張
- データミックスを 4回以上意図的に変更 し、目的に合わせて最適化
厳格なデータフィルタリング
- 事前学習後、ファインチューニング前に全サンプルを自動評価
- LLM-as-Judge が6軸(命令遵守、正確性、完全性、簡潔性、自然さ、キャリブレーション)で採点
- 基準未満は除外、 幻覚・誤計算・虚偽前提は自動却下
- RAG/Tool-calling も文脈・構造・スキーマで厳密チェック
- 4.1百万件の厳選サンプル のみでファインチューニング
4段階の強化学習(RL)戦略
- 第1段階 :9分野同時学習で忘却防止
- 第2段階 :RLHFでチャット品質向上(AlpacaEvalスコア大幅改善)
- 第3段階 :自己認識・知識キャリブレーション(短期調整で自己表現を安定化)
- 第4段階 :数学特化RLでRLHFによるスコア低下を回復・上回る
- 問題発生時も段階的に修正し、信頼性を確保
コンテキストウィンドウ拡張の工夫
- 512Kトークン対応 を段階的に実現(32K→128K→512K)
- 長文対応データとして 書籍・コードリポジトリ を活用
- 各拡張段階で モデル重みをマージ し、短文性能も維持
- RULERベンチマーク で長文性能の実在性を検証(性能劣化は緩やか)
利用方法とライセンス
- Ollama で簡単に導入可能、3Bは一般PC、8Bは高性能PC、30BはGPU必須
- Hugging Face 経由で全モデル公開
- vLLMやTransformers で即時運用可能
- IBM API で事前評価も可能
- FP8量子化版 も提供、メモリ制約下で有効
- Apache 2.0 で商用利用も安心
想定ユーザーと用途
- 堅牢なツールコーリング、 予測可能なレイテンシ、 法的リスク回避 が必要な企業
- コスト効率重視 の8Bが特に有力
- エッジ用途や低コスト推論 には3Bが有望
- 最高性能・大規模推論 には30Bが最適
- 実運用重視の設計と、問題解決型の開発姿勢 が特徴