概要
- Steerling-8B は、出力トークンの根拠を入力・概念・訓練データにまで遡れる初の大規模解釈可能モデル
- 1.35兆トークン で訓練され、同規模モデルよりも少ないデータ量で高性能を実現
- 推論時に 概念単位で制御・調整 でき、再訓練不要
- 訓練データの由来追跡 や安全性調整など、多彩な新機能を搭載
- 今後、詳細な技術解説や事例紹介を順次公開予定
Steerling-8B:解釈可能な大規模言語モデルの登場
- Steerling-8B は、生成する各トークンの根拠を3つの観点から説明可能
- 入力コンテキスト :どのプロンプトトークンが影響したか
- 概念 :人間が理解できるトピックやトーン
- 訓練データ :どのデータソースが出力に寄与したか
- 1.35兆トークンで訓練された 8Bパラメータ規模 のモデル
- Huggingface でモデル重み、 GitHub で対話コード、 PyPI でパッケージを公開
Steerling-8Bの特徴と仕組み
- 離散拡散モデル を基盤に採用し、複数トークン単位での制御が可能
- 埋め込み表現を3経路に分解
- 約33,000の教師あり「既知」概念
- 約100,000の自動発見「未知」概念
- 残差成分 (その他全般)
- 訓練時損失関数 で概念経路を通じた信号伝播を強制し、性能とのトレードオフを回避
- ロジットへの線形経路 で概念ごとに貢献度を分解・編集可能
使い方とインタラクション
- プロンプトに対する出力を カテゴリー別例 で提示
- 出力の任意チャンクをクリックすると、下記情報を即時表示
- 入力特徴帰属 :どの入力トークンが影響したか
- 概念帰属 :トーンや内容のランキング
- 訓練データ帰属 :出力知識のデータソース分布(例:ArXiv, Wikipedia, FLAN等)
性能評価
- 同規模/より大規模なモデル と比べて、遥かに少ない計算量で同等以上の性能
- LLaMA2-7B や Deepseek-7B をFLOPs(計算コスト)あたりで上回る
- 一般的な質問応答・推論・数学系ベンチマークで高評価
解釈性の検証と指標
- 検証セット での出力貢献度の84%以上が概念モジュール経由
- 残差経路 を除去しても多くのタスクで性能低下は小
- モデルが「隠れ経路」よりも概念経路に依存していることを示唆
- 既知概念の検出で AUC 96.2% を達成
Steerling-8Bがもたらす新たな可能性
- 概念制御 :推論時に特定概念を強調・抑制する精密操作
- 概念発見 :モデルが自律的に学んだ新たな概念空間の可視化・分析
- ファインチューニング不要のアライメント :安全性調整を概念単位で実現
- 訓練データの由来追跡 と価値評価:生成内容の根拠をデータソースまで特定
- 本質的解釈性の意義 :設計段階から解釈性を組み込むことで得られる利点
今後の展開
- 各機能や技術の詳細解説・定量評価・実運用事例を順次公開予定
- 研究者・開発者 向けに、モデルの内部構造や運用ノウハウをシェア予定