世界を動かす技術を、日本語で。

Show HN: Steerling-8B、生成する任意のトークンを説明できる言語モデル

概要

  • Steerling-8B は、出力トークンの根拠を入力・概念・訓練データにまで遡れる初の大規模解釈可能モデル
  • 1.35兆トークン で訓練され、同規模モデルよりも少ないデータ量で高性能を実現
  • 推論時に 概念単位で制御・調整 でき、再訓練不要
  • 訓練データの由来追跡 や安全性調整など、多彩な新機能を搭載
  • 今後、詳細な技術解説や事例紹介を順次公開予定

Steerling-8B:解釈可能な大規模言語モデルの登場

  • Steerling-8B は、生成する各トークンの根拠を3つの観点から説明可能
    • 入力コンテキスト :どのプロンプトトークンが影響したか
    • 概念 :人間が理解できるトピックやトーン
    • 訓練データ :どのデータソースが出力に寄与したか
  • 1.35兆トークンで訓練された 8Bパラメータ規模 のモデル
  • Huggingface でモデル重み、 GitHub で対話コード、 PyPI でパッケージを公開

Steerling-8Bの特徴と仕組み

  • 離散拡散モデル を基盤に採用し、複数トークン単位での制御が可能
  • 埋め込み表現を3経路に分解
    • 約33,000の教師あり「既知」概念
    • 約100,000の自動発見「未知」概念
    • 残差成分 (その他全般)
  • 訓練時損失関数 で概念経路を通じた信号伝播を強制し、性能とのトレードオフを回避
  • ロジットへの線形経路 で概念ごとに貢献度を分解・編集可能

使い方とインタラクション

  • プロンプトに対する出力を カテゴリー別例 で提示
  • 出力の任意チャンクをクリックすると、下記情報を即時表示
    • 入力特徴帰属 :どの入力トークンが影響したか
    • 概念帰属 :トーンや内容のランキング
    • 訓練データ帰属 :出力知識のデータソース分布(例:ArXiv, Wikipedia, FLAN等)

性能評価

  • 同規模/より大規模なモデル と比べて、遥かに少ない計算量で同等以上の性能
  • LLaMA2-7BDeepseek-7B をFLOPs(計算コスト)あたりで上回る
  • 一般的な質問応答・推論・数学系ベンチマークで高評価

解釈性の検証と指標

  • 検証セット での出力貢献度の84%以上が概念モジュール経由
  • 残差経路 を除去しても多くのタスクで性能低下は小
    • モデルが「隠れ経路」よりも概念経路に依存していることを示唆
  • 既知概念の検出で AUC 96.2% を達成

Steerling-8Bがもたらす新たな可能性

  • 概念制御 :推論時に特定概念を強調・抑制する精密操作
  • 概念発見 :モデルが自律的に学んだ新たな概念空間の可視化・分析
  • ファインチューニング不要のアライメント :安全性調整を概念単位で実現
  • 訓練データの由来追跡 と価値評価:生成内容の根拠をデータソースまで特定
  • 本質的解釈性の意義 :設計段階から解釈性を組み込むことで得られる利点

今後の展開

  • 各機能や技術の詳細解説・定量評価・実運用事例を順次公開予定
  • 研究者・開発者 向けに、モデルの内部構造や運用ノウハウをシェア予定

Hackerたちの意見

なんでみんなSHAPを使って言語モデルを解釈することが少ないんだろう?出力の文脈における帰属はすごく似てると思うんだけど。

SHAPは、ちっちゃなモデルでもめちゃくちゃ高くつくよ(ナイーブなSHAPはパラメータの数に対して指数的にスケールするし、コアリションをサンプリングして改善することもできるけど、数十億のパラメータの話をすると、そのサンプルは信じられないくらいスパースになる)。それに、深層ニューラルネットに対してはあまり説明力がないんだ。SHAPは基本的に、全ての可能なサブセットに対してポイントごとのアブレーションを行うけど、これはLLMには全然意味がない。これは同時に特定すぎて、一般すぎる。特定すぎるのは、興味深いLLMの振る舞いはしばしばニューロンのアンサンブルが何をするかを話す必要があるからで(例えば、メカニスティックな解釈が好きなら「回路」とか)、SHAPのパラメータごとのアプローチではこれを説明することが全くできない。さらに、深層ネットワークでは全てのニューロンが「意味的に等しい」わけではないっていう問題もある。深い層のニューロンは、初期の層とは質的に異なることをすることが多く、その組み合わせ方がSHAPを完全に混乱させることもある。一般すぎるのは、パラメータが同時に多くの役割を果たすことが多いから(ここでの一つの具体的な仮説は重ね合わせ仮説)で、SHAPはそのパラメータを解釈可能な部分に分ける方法を持っていない。具体的にこのモデルのアプローチがどうなっているかは知らないけど、残念ながらSHAPはLLMには全く機能しない。

ほとんどの解釈手法はLLMには失敗する。なぜなら、出力を説明しようとしても、それを生み出した意図や制約、内部構造をモデル化していないから。トークンレベルの帰属は役に立つけど、モデルがどう推論するかのフレームワークがないと、壁に映る影を説明してるだけになっちゃう。

ここでのオリジナルポスターだけど、君のコメントにはほぼ同意するよ!でも、うちのモデルはこれ以上のことをするんだ。モデルが生成する任意のチャンクに対して、どの概念がそのトークンに責任があるのかを答えることができる。実際、モデルが生成された原因となるトレーニングデータも答えられるんだ!これをアーキテクチャの一部として、モデルを訓練するための損失関数の制約として強制している。実際、複雑な問題に対するモデルの答えの高レベルな理由を得ることができるよ。

これは面白いパーティートリックだけど、説明可能性は私が気にしているAIの安全問題の解決策にはならない。モデルの周りにある本当の問題から目を逸らすだけだよ。権利を行使するのが難しい硬直した官僚的システムや、責任を回避する仕組みが問題なんだ。

ここでのオリジナルポスター。重要なポイントだけど、私は違うと思う。私たちは説明可能性/解釈可能性をAIの安全にとってのコアなニーズと見ている。理解できないシステムを整合させたり、監査したり、デバッグしたり、修正したりすることはできないと思う。私たちができることをいくつか挙げると:1) モデルが有害または望ましくないテキストを出力する原因となるトレーニングデータを見つけて修正できる。2) モデルが生成する任意のトークンのグループに対して、どの高レベルな概念に依存しているかがわかるから、その生成を減らすのはその概念への出力の影響を切り替えるだけで簡単なんだ。ほとんどのAI安全技術はファインチューニングに分類されるけど、私たちのモデルはファインチューニングなしでこれを可能にする。例えば、モデルがなぜお世辞を言っているのか知りたくない?それとも、サンドバッグしているのか?これを引き起こしているのは特定のトレーニングデータなのか、それともモデルの表現の高レベルな部分なのか?これらのことについて、私たちのモデルはその出力が生成された理由を正確に教えてくれるよ。今後数週間で、これをどうやって実現するかを具体的に示すからね!

僕はヘルスケアやライフサイエンスの分野でMLの問題に取り組んでるんだけど、説明可能性を高めるものは何でも助かるよ。規制当局にとって、ただのブラックボックスを指さして「今回はなぜ間違った答えを出したのかわからない」って言うのは、あまり良くないんだ。人間のエラーには変な寛容さがあるけど、技術的不確実性にはほとんど寛容じゃないんだよね。

すごく興味深いね。君のアルゴリズムについての論文や記事は出てる?自分で実装してみたいんだけど。これを見つけたけど、これが全体のシステムを表しているのかはわからないな。(ごめん、私はMLに詳しくないんだ)[0] - https://www.guidelabs.ai/post/scaling-interpretable-models-8...

そう、それがモデルアーキテクチャの最新情報が載ってる投稿だよ。これを見てみて: https://github.com/guidelabs/steerling。必要なものの土台が整ってるよ :)

これ、すごく面白そう。Anthropicが既存のモデルを使って辞書学習を試みたのに対して、これは辞書自体と一緒にモデルを訓練しているように感じる(むしろ、モデルと辞書が絡み合っている)。

その通りだね。トレーニング中にモデルを概念や辞書で導くことが重要なんだ。解釈可能性のための辞書学習は、今のところ信頼できないからね。

ただ言いたかったのは、最近の解釈可能性研究はほとんどが煙幕みたいなもので、これは本当に真剣な可能性があると思ってるってこと。SAEが実際に制約されてるのが好きだし、ただ無監視で後から付け足しただけじゃないのがいいね。ソースデータの帰属はどれくらい細かくできるの?個別のウィキペディアのトピックまで行ける?多分URLまでは無理かな?これが30/70bにスケールするのを見てみたいな。

文書内の非常に正確なテキストチャンクまで行けるよ!このスタイルのモデルの小さいバージョンが何をできるかのアイデアはこれをチェックしてみて: https://www.guidelabs.ai/post/prism/。これについてはすぐにもっと話すつもりだよ。生成物は11Bチャンクに追跡できるからね(文書ではなく、トレーニングデータ内の実際のチャンクだよ)。

とても興味深いね。このモデルが少ないトレーニングデータで同等のパフォーマンスを出せる理由についてコメントしてもらえる?

いつか、Claude CodeみたいなコーディングエージェントがATTRIBUTION.mdを作成・更新して、プロジェクトで使われたオープンソースプロジェクトやそのライセンスを引用する日が来るかもね。

商業的なインセンティブがない限り、そうなると思うよ。企業が正しいことをするためには、法的な追いつきが必要だと思ってる。

その通りだね :) attribution.mdを更新して、侵害されたオープンソースプロジェクトに依存しないようにすることができるよ。自分が気に入っているコードベースのスタイルでパッケージや関数を書かせたり、常に自分が大事にしている内部パッケージに依存させたりすることを想像してみて。そういう調整をモデルに入れると、可能性は無限大だよ。

すごく neat でオリジナルだね、おめでとう!トレーニングデータの帰属プロセスをどう解釈すればいいのか、ちょっと分からないんだ。例えば、「彼らは人間が損失を利益よりも重く受け止める傾向があり、それがリスク回避につながると主張した」という文に対して、24%がウィキペディアに、23%がArxivに帰属されているみたいだけど、これはこの文で使われている概念がそのデータセットにも含まれているってこと?それとも、どの部分のトレーニングデータがその文を作るために補間されたのかを追跡できるってこと?

いい質問だね。トレーニングデータの帰属プロセスについては、あまり明確には説明してなかったんだ。今後の作業で詳しく話す予定だよ。どの部分のトレーニングデータがその文を作るために補間されたのかを追跡できるよ。そのトレーニングデータの文については、生成されたものとトレーニングの間で概念を比較するんだ。トレーニングデータの正確な文やチャンクに帰属させることができるよ。最初のリリースでは、概念の類似性だけを共有するつもり。今後数週間で、モデルを使って正確なトレーニング文やチャンクにどうマッピングできるかを共有して話し合う予定だよ。これらのモデルの技術的な概要については、こちらのリンクをチェックしてみてね: https://www.guidelabs.ai/post/prism/

説明可能なLLMの改善を見るのはいつも嬉しいよ。おめでとう!