VibeThinker: 新しいSFT+GRPOを用いてOpus 4.5を凌駕する3Bパラメータモデルの推論

2026年6月23日原文(arxiv.org)

概要

VibeThinker-3B は3Bパラメータの小型モデルで、検証可能な推論能力を追求
Spectrum-to-Signal 手法を基盤に最適化パイプラインを導入
複数のベンチマークで 最先端レベルの性能 を達成
大規模モデル と同等またはそれ以上の推論能力を示す
パラメトリック圧縮カバレッジ仮説を提唱

VibeThinker-3B：小型モデルによる検証可能な推論の限界追求

VibeThinker-3B は、3B（30億）パラメータの 密集型コンパクトモデル
小型モデル領域で、 検証可能な推論能力 の限界を調査
Spectrum-to-Signal ポストトレーニング手法を基盤に構築
カリキュラムベースの教師ありファインチューニング、 マルチドメイン強化学習、 オフライン自己蒸留 による最適化パイプライン
AIME26スコア94.3 （テスト時スケーリングで97.1）、 LiveCodeBench v6 Pass@1で80.2、 LeetCode未公開コンテストで96.1%受理率
DeepSeek V3.2、 GLM-5、 Gemini 3 Pro など大規模モデルと同等以上の性能帯
IFEvalスコア93.4 で厳格な命令制御性も維持
先行の 1.5Bモデル研究 を拡張

パラメトリック圧縮カバレッジ仮説

検証可能な推論 は、 コンパクトな推論コア へ圧縮可能との仮説
オープンドメイン知識 や 汎用的な能力 には、事実・概念・ロングテール事例をカバーする広範なパラメータが必要
小型モデルは単なる デプロイ効率型代替 ではなく、 フロンティア級性能 への補完的アプローチ
パラメータ密度と性能の関係性 に新たな視点を提供
モデル開発戦略の多様化と効率的な推論システム実現への示唆

Hackerたちの意見

クラシックなペリカンのSVGを生成しようとしたけど、ひどい失敗で、長方形と黒い円しか表示されなかった…

└

それを聞けてよかった。

└

アートを生成するんじゃなくて、推論のためなの？

└

これは予測されてると思う？物語の一部は、彼らが「ペリカンは翼を持っている」という知識を削りながら、コアの推論能力をどうやって保ったかってことだね。> これらの発見は、検証可能な推論をコンパクトな推論コアに圧縮できると考えるパラメトリック圧縮-カバレッジ仮説を促進している。一方で、オープンドメインの知識や汎用的な能力は、事実、概念、ロングテールのシナリオに対する広範なパラメータカバレッジを必要とする。

└

もう一度やってみて、バイシクルとペリカンが何か、ペリカンがバイシクルの上にどう座るのかを丁寧に説明してみて。それから、使いたいSVGタグの参考文献も示してね。これが私が得たものだよ https://9ol.es/tmp/pelican.png と https://9ol.es/tmp/prompt_pelican.txt を使って prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M

このモデルをGPT-5ナノの代わりにソースコードのセキュリティレビューで試してみたら、ちょっと成功したよ。RTX 3090（24 GB VRAM）でvLLM経由で動かしてる。構造化された出力にはあまり向いてないみたいだけど（モデルカードにも書いてあるし）、それをハーネスで工夫してる。

└

制約付き生成で構造化された出力を強制できないの？

└

でも、私はハーネスの中でそれをうまくやってるよ。どうやって？

これはPython専用の結果だから、他の言語ではあまりうまくいかないよ。もっとドメインに特化したSLMが増えてほしいな！プログラミングに特化したMoEは、いろんな言語でうまく機能するはず。

└

このモデルが実際に何に焦点を当てているのか、混乱してる人が多いね。これは、数学や自己完結型のコーディング問題など、クローズドワールドで検証可能な推論タスクのための安価な専門家なんだ。「クローズドワールド」っていうのは、必要な情報がすでにコンテキストに含まれているってこと。欠けているコンテキストを発見できるツール使用エージェントではないよ。「検証可能」っていうのは、答えを生成するのは難しいけど、チェックするのは簡単ってこと。だから、オープンエンドの研究やリポジトリ全体のエージェント作業、事実に基づくQ&A、SVG生成はできない。限られた問題のためのコンパクトな推論モジュールって感じ。

└

Javaプログラマーのふりしてクラスやアクセサを詰め込むんじゃなくて、ちゃんと機能するPythonを書けるなら、もうOpusよりマシだね…

どんなモデルにも、狭いタスクでも役立つためには一定の知性が必要だよ。5歳の子供に車の運転を教えられる？10歳の子供は？12歳の子供は？車を運転するには、読む能力や、氷や雨の条件についての判断、ボールを追いかける子供を予測する能力が必要なんだ。人間が10代半ばになる頃には、基本的な知識を身につけてる… 小さなモデルも、十分に良くなるための基本的な知識が必要なんだよね。どこにそのラインがあるのか？もちろん、最先端モデルのすべての難解な知識は必要ないけど、最初に思っているよりも多くの基本的なレベルが必要だと思う。

Hacker Newsで議論の続きを見る

ハクソク

VibeThinker: 新しいSFT+GRPOを用いてOpus 4.5を凌駕する3Bパラメータモデルの推論

概要

VibeThinker-3B：小型モデルによる検証可能な推論の限界追求

パラメトリック圧縮カバレッジ仮説

Hackerたちの意見