世界を動かす技術を、日本語で。

グラニット 4.1: IBMの8Bモデルによる32B MoEのマッチング

2026年4月30日原文(firethering.com)

概要

  • IBM が企業向けに特化した Granite 4.1 オープンソース言語モデルをリリース
  • 3種類のサイズ、 Apache 2.0ライセンス、15兆トークンで徹底的に訓練
  • データ品質と訓練パイプラインへの強いこだわり
  • 小型モデルでも従来品を上回るベンチマーク結果
  • 実運用を見据えた設計と、厳格なデータフィルタリング・強化学習

IBM Granite 4.1:企業向けオープンソースLLMの新基準

  • Granite 4.1 は企業利用を想定した 言語モデルファミリー
  • 3B、8B、30B の3サイズ展開、全モデル Apache 2.0ライセンス
  • 15兆トークンで訓練、 データ品質に徹底的に注力
  • Denseアーキテクチャ採用、 MoEや複雑な推論チェーンは不使用
  • 8Bモデル が従来の32B MoEモデル(Granite 4.0-H-Small)を多くのベンチマークで上回る
  • モデルの進化は パラメータ数の単純拡大ではなく、訓練・データ品質の向上 によるもの

ベンチマーク結果と評価

  • ArenaHard (GPT-4による実世界チャット品質評価)で 8B instructが69.0 を記録
  • BFCL V3 (ツールコーリング)で 8Bが68.3、32B MoEは64.7
  • GSM8K (小学生レベルの数学推論)、 8Bが92.5 を達成
  • 他の主要ベンチマーク(AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP)でも 一貫して高評価
  • 小型・シンプル・高密度モデル の優位性を証明

訓練パイプラインとデータ戦略

  • 3B、8B、30B 全モデルで同一の デコーダオンリーDense Transformer設計
  • 5段階の訓練フェーズで データミックスと学習率を段階的に調整
    • Phase 1:CommonCrawl 59%、コード20%、数学7%
    • Phase 2:数学35%、コード30%に増加
    • Phase 3/4:Chain-of-thought推論や命令データを追加
    • Phase 5: コンテキストウィンドウを最大512Kトークンへ拡張
  • データミックスを 4回以上意図的に変更 し、目的に合わせて最適化

厳格なデータフィルタリング

  • 事前学習後、ファインチューニング前に全サンプルを自動評価
  • LLM-as-Judge が6軸(命令遵守、正確性、完全性、簡潔性、自然さ、キャリブレーション)で採点
    • 基準未満は除外、 幻覚・誤計算・虚偽前提は自動却下
  • RAG/Tool-calling も文脈・構造・スキーマで厳密チェック
  • 4.1百万件の厳選サンプル のみでファインチューニング

4段階の強化学習(RL)戦略

  • 第1段階 :9分野同時学習で忘却防止
  • 第2段階 :RLHFでチャット品質向上(AlpacaEvalスコア大幅改善)
  • 第3段階 :自己認識・知識キャリブレーション(短期調整で自己表現を安定化)
  • 第4段階 :数学特化RLでRLHFによるスコア低下を回復・上回る
  • 問題発生時も段階的に修正し、信頼性を確保

コンテキストウィンドウ拡張の工夫

  • 512Kトークン対応 を段階的に実現(32K→128K→512K)
  • 長文対応データとして 書籍・コードリポジトリ を活用
  • 各拡張段階で モデル重みをマージ し、短文性能も維持
  • RULERベンチマーク で長文性能の実在性を検証(性能劣化は緩やか)

利用方法とライセンス

  • Ollama で簡単に導入可能、3Bは一般PC、8Bは高性能PC、30BはGPU必須
  • Hugging Face 経由で全モデル公開
  • vLLMやTransformers で即時運用可能
  • IBM API で事前評価も可能
  • FP8量子化版 も提供、メモリ制約下で有効
  • Apache 2.0 で商用利用も安心

想定ユーザーと用途

  • 堅牢なツールコーリング予測可能なレイテンシ法的リスク回避 が必要な企業
  • コスト効率重視 の8Bが特に有力
  • エッジ用途や低コスト推論 には3Bが有望
  • 最高性能・大規模推論 には30Bが最適
  • 実運用重視の設計と、問題解決型の開発姿勢 が特徴

Hackerたちの意見

昨日試乗してみたけど、8bはかなりすごいね。一般的なハードウェアでサクサク動くし。Qwen3.6の35b a3bはまだ私の地元のチャンピオンだけど、これをオートコンプリートやちょっとした作業に使うかも。Graniteは最近のトレーニングデータを持ってるのがいいね。他の小さいモデルが最近のデータで微調整されてたら、これを使うかどうか分からないけど、それだけでも結構良い感じ。リリースされた4bは私のニーズには合わなかったけど、ツールコールとかはこなせそう。

うん、Qwen 3.6のオープンウェイトは間違いなく強いよ。

ジェンマ4シリーズ、試してみたことある?最近ローカルモデルを使ってないけど、ベンチマークは良さそうだね。もしそれが比較的安定してるなら、無料のローカルツールモデルを使いたいな。

Qwen3-Coder-Nextはコーディングにぴったりのサイズみたい。新しいのを試してみたけど、冗長さがコーディングにはあまり役立たなかった。でも、もっと分析的なタスクやドキュメントを書くにはいいかも。

IBMとMistralがMoEからの方向転換をしてるのは面白いね。一方で、SOTAの大きなモデルクラスはそれを続けてるみたい。ざっくりとした印象だけど、8B @ Q6は期待できそう。ちょっと冷静なトーンだけど、データ処理とかには役立ちそう。たまに絵文字をスパムみたいに送ってくるLLMはあんまり欲しくないよね...

理にかなってるね。小さいモデルには密なやつ、大きいモデルには密かMoEがいい感じで、いろんなハードウェアにうまくフィットする。小さいスケールではMoEは必要ないし、大きいスケールでは密なやつは重すぎるし。

LLMに絵文字でスパンされるのは絶対に嫌だ。何のためにそれが必要なの?すごくイライラする。

フルストップ。なぜ人々は明らかに雑な部分を編集せずに、まだ読者が残ると思っているのか。

じゃあ、LLMが書いた記事でも、LLMの特徴がなければ大丈夫ってこと?

記事の3行目に「でも、ベンチマークで私が何度も振り返る結果がある。」ってあるけど、最近YouTubeでメディアやニュースの人たちがよく言ってるのを聞くよね。「そして、誰も話していない部分がこれ。」とか「これが私を眠れなくさせる部分。」とか「ここから話が複雑になる。」とか「これがうまくはまらない部分。」とか「ここから通常の説明が崩れ始める。」とか「これが私が考え続けていること。」とか「私たちが心配すべき部分は明らかなものではない。」とか「ここから本当の問題が始まる。」とか「でも、もっと興味深い質問は誰も聞いていないもの。」とか「ここから物事が単純ではなくなる。」って感じ。あんまり心配はしてないけど、LLMの話し方がすごく特徴的で、メディアの人たちがテレビでLLMが吐き出したことをそのまま読むのにすごくオープンだなって思う。LLMが何を言ってるかを深く研究したことはないけど、私の脳がその話し方をすぐに認識するのが面白いね。

「フルストップ」という表現の文字通りの使い方を指してるの?もう記事には見当たらないけど、もしかして編集されたのかな?

本当に「スリーパー」なのは、もしベンチマークが小さいモデルに対してフロンティアモデルに対して持続するなら、https://huggingface.co/ibm-granite/granite-vision-4.1-4bかもしれないね。

Hacker Newsで議論の続きを見る