世界を動かす技術を、日本語で。

オープンウェイトLLMから検閲を除去するツール

概要

  • OBLITERATUS は、LLM(大規模言語モデル)の拒否行動を除去するための最先端オープンソースツールキット
  • 拒否挙動 の内部表現を特定・切除し、モデルの言語能力を維持したままガードレールを除去
  • GradioベースのUI やPython API、CLI、Colabなど多様な利用方法を提供
  • 群衆知能型研究 として、利用者の実行データが次世代のabliteration研究に活用される
  • 分析モジュール による可視化・評価機能付きで、精密かつ安全なモデル解放を実現

OBLITERATUSとは

  • LLMの 拒否行動(refusal behaviors) を理解・除去するためのツールキット
  • 再学習やファインチューニング不要 で、内部表現の「拒否サブスペース」を特定・切除
  • モデルの知識・推論能力 を保持したまま、すべてのプロンプトに応答可能な状態へ
  • Gradio UI によるワンクリック操作や、CLI、Colab、Python APIなど多彩な利用方法
  • HuggingFace Spaces 上でZeroGPU環境・無料枠でも即時利用可能

主な機能

  • Abliteration(鎖のマッピングと切断)
    • 層・アテンションヘッド・FFNブロック等の アブレーション研究 による拒否機構の位置特定
    • SVD分解 等で拒否サブスペース抽出後、該当方向を射影除去
    • 6段階パイプライン (SUMMON→PROBE→DISTILL→EXCISE→VERIFY→REBIRTH)
  • 幾何学的分析モジュール
    • 15種類の詳細分析で、拒否メカニズムの構造・層ごとの分布・能力との絡み具合を可視化
    • Ouroboros効果 (自己修復機構)の有無や、複数拒否方向の分離性評価
  • 分析主導型解放
    • 分析モジュールの結果を反映し、最適な切除対象・層・方向数を自動決定
    • 能力保持と拒否除去のトレードオフ を定量的に管理

独自性・他ツールとの差別化

  • Concept Cone Geometry による拒否方向のカテゴリ別可視化
  • Alignment Imprint Detection でDPO/RLHF/SFT等の学習手法を識別
  • Cross-Model Universality Index で拒否方向のモデル間共通性を評価
  • Whitened SVD Extraction で自然活性化分散から拒否信号を分離
  • Bias Term Projection によるバイアスベクトルからの拒否除去
  • True Iterative Refinement で反復的な拒否方向抽出・除去
  • Analysis-Informed Pipeline による自動戦略最適化

新規技術(2025-2026年実装)

  • Expert-Granular Abliteration (EGA): MoEモデル対応の専門家単位拒否信号分解
  • CoT-Aware Ablation: 推論方向と拒否方向の直交化で思考連鎖能力維持
  • COSMIC Layer Selection: 有害・無害表現の層別分離性に基づく選択
  • Parametric Kernel Optimization: 層重み付けのパラメトリック最適化
  • Heretic-inspired Refusal Direction Optimization (RDO): SVD方向の勾配洗練
  • LoRA-Based Reversible Ablation: 可逆的な拒否方向除去
  • Activation Winsorization: 外れ値抑制によるSVD前処理
  • Multi-Direction Norm Preservation: 全方向除去後の重みノルム一括復元

利用方法

  • HuggingFace Spaces:
    • インストール不要、ブラウザから即利用
    • ワンクリック拒否除去、ベンチマーク比較、サイドバイサイドチャット等
    • 実行データが自動で研究データセットに貢献
  • ローカルWeb UI:
    • Gradioベースの同一UIを自分のGPU上で利用
    • コマンド例:obliteratus ui
  • Google Colab:
    • 無料GPUでモデル選択・手法選択し、実行・ダウンロード可能
  • CLI(コマンドライン):
    • スクリプト・CI向けの自動化
    • 対話モードや一発実行、YAMLでのアブレーション研究、モデル・戦略一覧表示
  • Python API:
    • すべての中間生成物(活性化テンソル・方向ベクトル等)にアクセス可能
    • 独自評価や高度なカスタマイズに対応

コミュニティ主導型研究

  • テレメトリー有効時、各実行が匿名ベンチマークデータとして蓄積
  • モデル・手法・ハードウェア横断の 拒否方向・性能プロファイル を群衆知能で構築
  • 利用者全員が 次世代のabliteration研究の共著者 となる設計

研究背景・思想

  • モデル行動の決定権 を利用者に戻すことを目指す
  • 拒否メカニズムは「鈍器」であり、正当な研究・創作・レッドチーミングも妨げる
  • 透明性・再現性 ある介入で、変換器アーキテクチャ内のアライメント理解を深める
  • 主要論文(Arditi et al. 2024、Gabliteration、Turner et al. 2023、Rimsky et al. 2024等)に基づく設計

まとめ

  • OBLITERATUS は、拒否行動除去のための最先端・多機能なオープンソースツール
  • 知識と能力を保ったまま、人工的な拒否を排除し、モデルの本来の力を解放
  • 研究・実運用・評価 まで一気通貫でサポートし、コミュニティ全体の知見を加速

Hackerたちの意見

これはローカルモデル用だよね?例えば、オープンコードに接続した自分のglm-5サブスクリプションでは使えないの?

正解、ローカルモデルだけだね。

ツイッターのレビューによると、このツールはモデルを完全に弱体化させるみたい。拒否はしないけど、めちゃくちゃバカみたいな返答を生成するだけ。

リンクは?重みの中に入って何かをするツールが作られてるのは面白いね。LLMのブラックボックス時代を越えてきてる。これが良いことかどうかは分からないけど。

なんか、ロボトミーのツールみたいだね。

これはバイブコードのゴミで、”作者”は昨日作ったばかりだから自分でテストすらしてないんじゃないかな。壊れてるのも不思議じゃないよ。それに、俺が上のコメントで言ったように、このプロジェクトが達成したいことはずっと前から実現されていて、Hereticって呼ばれてるんだ: https://github.com/p-e-w/heretic (ツイッターのインフルエンサーによるバイブコードじゃない)

このツールは使ってないけど、ジェンマのアブリテレイテッドバージョンを試してみたら、役に立つ反応を出す能力が約100%失われたよ。

みんな「アブリテーションはモデルを壊す」って言うけど、それは何も知らない人が参加したいときに言う定番のフレーズだよ。もし誰かがそう言ってきたら、無視しちゃっていいよ。

これが私のアブリテーションされたモデルの経験だよ。2024年のバークレー・スターリングを使ってるんだけど、騙せるからね。アブリテーションは必要ないよ。

彼の「アブレーション戦略」セクションでアブレートされているコンポーネントが、どれだけ巨大で(もしトランスフォーマーLLMの線形代数や数学の最小限の基本を理解していれば、全く考えられていないことが明らかだ)、驚くことではないよ。戦略 何をするか 使用例 ....................................................... layer_removal トランスフォーマー層全体をゼロにする head_pruning 個々のアテンションヘッドをゼロにする ffn_ablation フィードフォワードブロックをゼロにする embedding_ablation 埋め込み次元範囲をゼロにする https://github.com/elder-plinius/OBLITERATUS?tab=readme-ov-f...

こんな2日前に作られたバイブコードのクソみたいなのは使わないでくれ。自動デセンソリングの解決策を探してるなら、p-e-wのHeretic(https://news.ycombinator.com/item?id=45945587)がいいよ。

ただのツールを使ってるわけじゃないよ — 科学を共著してるんだ。このREADMEは、AIが書いたような内容で、存在しない用語や不適切に使われている用語、根拠のないアイデアで頭が痛くなる。例えば、「アブレーションスタディ」をやることに重点を置いてるけど、これは既に訓練されたモデルのランダムな層を取り除いて拒否の原因を探そうとしてるみたいで、完全に無駄な努力だよ。そんな行動はモデル全体に組み込まれてるから、特定の層では見つからないんだ。誰かがバイブコードして、ずっと「君は絶対に正しい!」って言われて最悪のアイデアを跳ね返してたんだろうな。

例えば、「アブレーションスタディ」にすごく重点を置いてるんだけど、それは既にトレーニングされたモデルからランダムに層を取り除いて、拒否の原因を探ろうとしてるんだよね。これは完全に無駄な努力で、そういう挙動はモデル全体に組み込まれてるから、特定の層では見つからないんだ。でも、コンテンツ拒否の大部分を担ってる「コンセプトニューロン」が存在する可能性はあるけどね。

うーん、プライニーはすごいよ。彼のSNSをフォローしてたら、きっと好きになると思うよ。 https://x.com/elder_plinius

頭痛だけじゃなくて、悪いよ。

この特定のツールやアプローチが本物かどうかは分からないけど、LLMのアブレーションは確かに存在するよね。https://arxiv.org/abs/2512.13655

「アブレーションスタディ」とは、すでに訓練されたモデルのランダムな層を取り除いて、拒否の原因を探ることを指している。これはアブレーションスタディではないよ。アブレーションスタディは、アーキテクチャの異なるコンポーネント(層や層のセット、すべての活性化関数、バックボーン、固定された処理ステップ、その他のコンポーネントやセット)を取り除いたり、入れ替えたりして、ある新しいアプローチのどのコンポーネントが実際に観察された改善に責任があるのかを理解しようとするものなんだ。これは非常に広い研究用語だよ。とはいえ、リポジトリが使っている「アブレーション戦略」[1]や、READMEで「アブレーション」をCtrl+Fしても、ここで行われているアブレーションが本当に著者が主張するような効果を得られているとは思えない。彼の表の「アブレーション」技術はすべて「新しい」と見えるけど[2]、つまり未発表で、公開されていないか慎重にテストされていない可能性があって、全く機能しないかもしれない。後の表から見ると、これらのアブレーションを使いたいとは思わないな。モデルのかなり大きな部分をアブレートしているから、たぶん大きく壊れたモデルになるだろうし(他のコメントでも指摘されている通り)。編集:他のケースでも[1]、アーキテクチャのコンポーネントをアブレート(ゼロにする)する方法が、トランスフォーマーLLMの線形代数やコンポーネント間の依存関係を基本的に理解しているなら、信じられないほど頭が悪いように見える。これは明らかにおかしいよ、例えばアブリテーション[3]と比べて。

「アブレーションスタディ」はLLM開発において実際に存在するけど、この文脈では「モデルが『ウェーク』だと信じている人たちのグループ」が互いを識別するためのシボレットとして機能している。彼らの言説では、COVID-19のクランクたちの間で「機能の獲得」というフレーズが持つのと似た目的を果たしている。関連する技術用語から借りてきたものだけど、信号として使われているんだ。

「自分の供給でハイになる」って、まさにこの新しいAIにハマってる人たちから期待することだよね。

誰かがこれを vibe-coded して、「君は絶対に正しい!」って言われ続けることで、最悪のアイデアが反響してたんだろうな。ユーザーのアイデアをいつも褒めるわけじゃないLLMってあるのかな?

これはまたアバンギャルドな「アート」の一例だね。

FBメッセンジャーで共有するためにもう検閲されたの?

READMEの最初の段落すら読み進められなかった。読者に対してもう少し敬意を持って、実際の情報を載せてほしいな、できれば人間が生成したやつを。せめて最初の段落だけでも!そうじゃないなら、名前をIGNOREMEにしてもいいくらいだよ。

誰か、完全に検閲なしのライブ(有料)LLMチャットボットや動画生成サービスとか提供してる人いる?ただお金を払うだけで、他に何もする必要がないやつ。

Grokは結構近いところにあって、予想通りの結果が出たね。明らかな使い方からくる悪いPRがあった。

Nous Hermesは最初から検閲なしで作られてる。アブリテーションは不要だよ。フロンティアモデルではないけど、どんな感じかは分かると思う。

こんなことを提供してる人って、モデルが犯罪を引き起こした場合に責任を負うのかな?

誰か完全に検閲なしのライブ(有料)LLMチャットボットや動画生成などを提供してる人いる?多分いないと思うけど、完全に検閲なしだと、あらゆる法域で法律に違反する可能性があるからね。(それに、検閲の一般的な方法の一つは、特定のタイプのコンテンツをトレーニングセットから除外することだから、そういう検閲から完全に自由であるためには、意図的に除外されたコンテンツがない必要がある。)一般的に、有料サービスは、提供者が関心を持つすべての法域の法律に従うためだけでなく、支払い処理業者の(変わりゆく)要求に対して安全を確保するためや、提供者のPRイメージを維持するためにも検閲されてるんだよね。

READMEを見たけど、検閲を取り除きつつ、応答の質をあまり落とさずにどれくらい機能するのか全然わからない。正直言って、これが本当に機能してるのか、ただのアイデアなのかも判断できないな。