世界を動かす技術を、日本語で。

グラニット 4.1: IBMの8Bモデルによる32B MoEのマッチング

概要

  • IBM が企業向けに特化した Granite 4.1 オープンソース言語モデルをリリース
  • 3種類のサイズ、 Apache 2.0ライセンス、15兆トークンで徹底的に訓練
  • データ品質と訓練パイプラインへの強いこだわり
  • 小型モデルでも従来品を上回るベンチマーク結果
  • 実運用を見据えた設計と、厳格なデータフィルタリング・強化学習

IBM Granite 4.1:企業向けオープンソースLLMの新基準

  • Granite 4.1 は企業利用を想定した 言語モデルファミリー
  • 3B、8B、30B の3サイズ展開、全モデル Apache 2.0ライセンス
  • 15兆トークンで訓練、 データ品質に徹底的に注力
  • Denseアーキテクチャ採用、 MoEや複雑な推論チェーンは不使用
  • 8Bモデル が従来の32B MoEモデル(Granite 4.0-H-Small)を多くのベンチマークで上回る
  • モデルの進化は パラメータ数の単純拡大ではなく、訓練・データ品質の向上 によるもの

ベンチマーク結果と評価

  • ArenaHard (GPT-4による実世界チャット品質評価)で 8B instructが69.0 を記録
  • BFCL V3 (ツールコーリング)で 8Bが68.3、32B MoEは64.7
  • GSM8K (小学生レベルの数学推論)、 8Bが92.5 を達成
  • 他の主要ベンチマーク(AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP)でも 一貫して高評価
  • 小型・シンプル・高密度モデル の優位性を証明

訓練パイプラインとデータ戦略

  • 3B、8B、30B 全モデルで同一の デコーダオンリーDense Transformer設計
  • 5段階の訓練フェーズで データミックスと学習率を段階的に調整
    • Phase 1:CommonCrawl 59%、コード20%、数学7%
    • Phase 2:数学35%、コード30%に増加
    • Phase 3/4:Chain-of-thought推論や命令データを追加
    • Phase 5: コンテキストウィンドウを最大512Kトークンへ拡張
  • データミックスを 4回以上意図的に変更 し、目的に合わせて最適化

厳格なデータフィルタリング

  • 事前学習後、ファインチューニング前に全サンプルを自動評価
  • LLM-as-Judge が6軸(命令遵守、正確性、完全性、簡潔性、自然さ、キャリブレーション)で採点
    • 基準未満は除外、 幻覚・誤計算・虚偽前提は自動却下
  • RAG/Tool-calling も文脈・構造・スキーマで厳密チェック
  • 4.1百万件の厳選サンプル のみでファインチューニング

4段階の強化学習(RL)戦略

  • 第1段階 :9分野同時学習で忘却防止
  • 第2段階 :RLHFでチャット品質向上(AlpacaEvalスコア大幅改善)
  • 第3段階 :自己認識・知識キャリブレーション(短期調整で自己表現を安定化)
  • 第4段階 :数学特化RLでRLHFによるスコア低下を回復・上回る
  • 問題発生時も段階的に修正し、信頼性を確保

コンテキストウィンドウ拡張の工夫

  • 512Kトークン対応 を段階的に実現(32K→128K→512K)
  • 長文対応データとして 書籍・コードリポジトリ を活用
  • 各拡張段階で モデル重みをマージ し、短文性能も維持
  • RULERベンチマーク で長文性能の実在性を検証(性能劣化は緩やか)

利用方法とライセンス

  • Ollama で簡単に導入可能、3Bは一般PC、8Bは高性能PC、30BはGPU必須
  • Hugging Face 経由で全モデル公開
  • vLLMやTransformers で即時運用可能
  • IBM API で事前評価も可能
  • FP8量子化版 も提供、メモリ制約下で有効
  • Apache 2.0 で商用利用も安心

想定ユーザーと用途

  • 堅牢なツールコーリング予測可能なレイテンシ法的リスク回避 が必要な企業
  • コスト効率重視 の8Bが特に有力
  • エッジ用途や低コスト推論 には3Bが有望
  • 最高性能・大規模推論 には30Bが最適
  • 実運用重視の設計と、問題解決型の開発姿勢 が特徴

Hackerたちの意見

昨日試乗してみたけど、8bはかなりすごいね。一般的なハードウェアでサクサク動くし。Qwen3.6の35b a3bはまだ私の地元のチャンピオンだけど、これをオートコンプリートやちょっとした作業に使うかも。Graniteは最近のトレーニングデータを持ってるのがいいね。他の小さいモデルが最近のデータで微調整されてたら、これを使うかどうか分からないけど、それだけでも結構良い感じ。リリースされた4bは私のニーズには合わなかったけど、ツールコールとかはこなせそう。

うん、Qwen 3.6のオープンウェイトは間違いなく強いよ。

ジェンマ4シリーズ、試してみたことある?最近ローカルモデルを使ってないけど、ベンチマークは良さそうだね。もしそれが比較的安定してるなら、無料のローカルツールモデルを使いたいな。

Qwen3-Coder-Nextはコーディングにぴったりのサイズみたい。新しいのを試してみたけど、冗長さがコーディングにはあまり役立たなかった。でも、もっと分析的なタスクやドキュメントを書くにはいいかも。

IBMとMistralがMoEからの方向転換をしてるのは面白いね。一方で、SOTAの大きなモデルクラスはそれを続けてるみたい。ざっくりとした印象だけど、8B @ Q6は期待できそう。ちょっと冷静なトーンだけど、データ処理とかには役立ちそう。たまに絵文字をスパムみたいに送ってくるLLMはあんまり欲しくないよね...

理にかなってるね。小さいモデルには密なやつ、大きいモデルには密かMoEがいい感じで、いろんなハードウェアにうまくフィットする。小さいスケールではMoEは必要ないし、大きいスケールでは密なやつは重すぎるし。

LLMに絵文字でスパンされるのは絶対に嫌だ。何のためにそれが必要なの?すごくイライラする。

フルストップ。なぜ人々は明らかに雑な部分を編集せずに、まだ読者が残ると思っているのか。

じゃあ、LLMが書いた記事でも、LLMの特徴がなければ大丈夫ってこと?

記事の3行目に「でも、ベンチマークで私が何度も振り返る結果がある。」ってあるけど、最近YouTubeでメディアやニュースの人たちがよく言ってるのを聞くよね。「そして、誰も話していない部分がこれ。」とか「これが私を眠れなくさせる部分。」とか「ここから話が複雑になる。」とか「これがうまくはまらない部分。」とか「ここから通常の説明が崩れ始める。」とか「これが私が考え続けていること。」とか「私たちが心配すべき部分は明らかなものではない。」とか「ここから本当の問題が始まる。」とか「でも、もっと興味深い質問は誰も聞いていないもの。」とか「ここから物事が単純ではなくなる。」って感じ。あんまり心配はしてないけど、LLMの話し方がすごく特徴的で、メディアの人たちがテレビでLLMが吐き出したことをそのまま読むのにすごくオープンだなって思う。LLMが何を言ってるかを深く研究したことはないけど、私の脳がその話し方をすぐに認識するのが面白いね。

「フルストップ」という表現の文字通りの使い方を指してるの?もう記事には見当たらないけど、もしかして編集されたのかな?

本当に「スリーパー」なのは、もしベンチマークが小さいモデルに対してフロンティアモデルに対して持続するなら、https://huggingface.co/ibm-granite/granite-vision-4.1-4bかもしれないね。

わお、これってモデルの未来の一部なの?基本的にツールとして使える小さいモデルだね。

IBMの発表: https://research.ibm.com/blog/granite-4-1-ai-foundation-mode...

いや、それは読まないわ。人間に書かせることすらできないなら、そんなに重要じゃないんじゃない?でも、彼らには良かったと思う。そうなったことに対してはごめんね。

これが公式発表だよ:https://research.ibm.com/blog/granite-4-1-ai-foundation-mode... ここに投稿されたスラップが研究者のせいじゃないからね。

https://research.ibm.com/blog/granite-4-1-ai-foundation-mode... IBMリサーチの元記事 Hugging faceのウェイト: https://huggingface.co/collections/ibm-granite/granite-41-la...

LLMが書いた記事について文句言う人多いけど、HNの人間のコメントはもっとひどいよね。ほとんどが、自分がLLMの記事を読まなかったことに誇りを持ってる人たちと、記事をそのまま受け取ってモデルが役立つかのように見せる人たち、そして他のベンチマークを実際に見たコメントが一つあるだけ。人間って、感情的になるのは得意だけど、分析は苦手だよね…。この記事はモデル設計についていいポイントを挙げてる(同じモデルファミリー内でサイズが違うと似た結果が出るとか、幻覚をフィルタリングする方法とか、数学的な結果の強化とか)、それを理解する価値はあるよ。この記事は、同じモデルファミリーの3つのサイズについてだけ議論してるんだけど、他のモデルファミリーと比べると、Granite 4.1 8Bはダメダメなんだよね。非幻覚と指示に従うこと以外では、他のモデルと比べて良いベンチマークはないし、Qwen 3.5 4B(他のモデルも含めて)は、他の指標で簡単にそれを上回ってる。この文章は、一般的に記事を読むことの大切な教訓を教えてくれる。役立つ情報を得ることができる(そう、LLMが書いててもね)。でも、批判的思考を使って、記事が見逃してることがないか積極的に確認するべきだよ。

他のモデルと比べて良いベンチマークは非幻覚と指示に従うことだけ。指示に従うことが、このモデルたちが最も役立つことになると思う。音声インターフェースを追加して、シンプルで分かりやすいデバイスやAPIにアクセスできれば、ちょっと役立つアシスタントができるよね。8Bパラメータでそれができれば、すぐにエッジデバイスでも動くようになるだろう。それはかなり役立つよ。

HNの人間のコメントはもっとひどい ここにあるコメントの中にはLLMが書いたものだと思ってるよ。

LLM賛成の愚痴は変だよね。LLMは詳細で elaborate な嘘を作るときに「幻覚」を起こすし、フロンティアモデルは今でもひどいことをやってる。LLMが書いた記事は、どの行も真実かもしれないし、説得力のある嘘かもしれないから、デフォルトで0の価値しかない。すべての行をファクトチェックしなきゃいけない。今、Gemini 3.1 proを使って論文のリサーチをしてるけど、検索を有効にしてプロモードにしても、存在しない論文を丸ごと作り出したり、既存の論文の内容を嘘でつなげたりしてくる。もし、私がこの結果に基づいてLLMが書いた記事を提出したら、記事の80%は嘘になるだろう。記事がLLMで書かれてるって文句を言うのも役に立つよ、だって区別できない人もいるからね。

要するに、他のオリジナルコンテンツを噛み砕いて再生産しただけのものなんだよね。「新しい」ものなんて見せないで、元のコンテンツを見せてほしい。これが定義上、スラップだよ。https://huggingface.co/blog/ibm-granite/granite-4-1

問題は、これらの記事の信号対ノイズ比なんだよね。もしAIが記事を書いたなら、同じ情報を自分のAIでも生成できるはずだし、自分のニーズに合わせてカスタマイズできる。じゃあ、この文章が生成している新しい情報って何なの?それを自分のAIと相談するために使えるの?それが知りたいんだ。もしかしたら、私の言いたいことは「ただプロンプトを送ってくれ」ってことかも。[0] https://blog.gpkb.org/posts/just-send-me-the-prompt/

「この記事はモデル設計についていいポイントを挙げてる」 でも、それが本当にいいポイントかどうかどうやって判断すればいいの?その「いいポイント」が運次第だなんて、時間をかけて読むのは嫌だな。

でも、この記事が言ってないのは、他のモデルファミリーと比べると、Granite 4.1 8Bはイマイチだってこと。そうだね。これはただ、Granite 4.1 8Bが前のバージョンであるGranite 4.0-H-Smallよりはマシだって言ってるだけで、32B、9Bがアクティブなやつね。つまり、前よりは少しマシなモデルを作ったってこと。でも、他のモデルとどう比較されるかは全然わからないよね。

自分たちがLLMが書いた記事を読まないことを誇りに思っている人たちが多いみたいだけど、実際にはLLMのプロンプトに何が含まれているかの不確実性に対する不満を表明しているだけじゃないかな。これが1文のプロンプトだったかもしれないし、単に再フォーマットされたよく調査された背景があったのかもしれない。誰かが10秒で済ませたかもしれないのに、なんでそれを確認するのに数分から数時間も無駄にするの?彼らの言い分はすごく理解できるよ。最近、意見が合わない人たちが何かについて意見を言うのを見て、まるで自己満足してるみたいに感じる人が多いけど、なんでそんな風に考えるんだろうね。

ローカルモデルの話だけど、Claudeのチャットインターフェースに相当する良いものってある?最近、Claudeの使用制限にうんざりしてオープンモデルに移行し始めたんだけど(200ドル/月は出せないし)、コーディングタスクではKimi 2.6がSonnetと同じくらいの感じだったよ。唯一、質問を投げたり数学の宿題を手伝ってもらうためのいいインターフェースがないのが残念。

Open WebUIを試してみるといいよ。ローカルでオープンモデルをクリーンなインターフェースで動かすのに本当に便利だから。

Ollamaもこれをやってるし、llama.cppのllama-serverも同様だよ。

llama.cppパッケージのllama-serverにはローカルウェブインターフェースがあるよ。

最近は主にLM Studioを使ってる。Ollamaも今はまあまあのチャットUIがあるよ。'brew install llama.cpp'で'llama-server'がインストールできて、かなりいいウェブUIが使える。

Ollamaを使えば、ollama launch claudeでClaude Codeが使えるよ。* https://docs.ollama.com/integrations/claude-code

Granite 4.1 3BモデルはUnslothから2GBで入手できるよ: https://huggingface.co/unsloth/granite-4.1-3b-GGUF LM Studioで動かしてみたら、自転車に乗った抽象的なペリカンが出てきたよ(小さい3Bモデルにしては悪くない - 少なくとも有効なSVGを出力できるし): https://gist.github.com/simonw/5f2df6093885a04c9573cf5756d34...