ハクソク

世界を動かす技術を、日本語で。

オープンウェイトLLMから検閲を除去するツール

2026年3月6日原文(github.com)

概要

OBLITERATUS は、LLM（大規模言語モデル）の拒否行動を除去するための最先端オープンソースツールキット
拒否挙動 の内部表現を特定・切除し、モデルの言語能力を維持したままガードレールを除去
GradioベースのUI やPython API、CLI、Colabなど多様な利用方法を提供
群衆知能型研究 として、利用者の実行データが次世代のabliteration研究に活用される
分析モジュール による可視化・評価機能付きで、精密かつ安全なモデル解放を実現

OBLITERATUSとは

LLMの 拒否行動（refusal behaviors） を理解・除去するためのツールキット
再学習やファインチューニング不要 で、内部表現の「拒否サブスペース」を特定・切除
モデルの知識・推論能力 を保持したまま、すべてのプロンプトに応答可能な状態へ
Gradio UI によるワンクリック操作や、CLI、Colab、Python APIなど多彩な利用方法
HuggingFace Spaces 上でZeroGPU環境・無料枠でも即時利用可能

主な機能

Abliteration（鎖のマッピングと切断）
- 層・アテンションヘッド・FFNブロック等の アブレーション研究 による拒否機構の位置特定
- SVD分解 等で拒否サブスペース抽出後、該当方向を射影除去
- 6段階パイプライン （SUMMON→PROBE→DISTILL→EXCISE→VERIFY→REBIRTH）
幾何学的分析モジュール
- 15種類の詳細分析で、拒否メカニズムの構造・層ごとの分布・能力との絡み具合を可視化
- Ouroboros効果 （自己修復機構）の有無や、複数拒否方向の分離性評価
分析主導型解放
- 分析モジュールの結果を反映し、最適な切除対象・層・方向数を自動決定
- 能力保持と拒否除去のトレードオフ を定量的に管理

独自性・他ツールとの差別化

Concept Cone Geometry による拒否方向のカテゴリ別可視化
Alignment Imprint Detection でDPO/RLHF/SFT等の学習手法を識別
Cross-Model Universality Index で拒否方向のモデル間共通性を評価
Whitened SVD Extraction で自然活性化分散から拒否信号を分離
Bias Term Projection によるバイアスベクトルからの拒否除去
True Iterative Refinement で反復的な拒否方向抽出・除去
Analysis-Informed Pipeline による自動戦略最適化

新規技術（2025-2026年実装）

Expert-Granular Abliteration (EGA)： MoEモデル対応の専門家単位拒否信号分解
CoT-Aware Ablation： 推論方向と拒否方向の直交化で思考連鎖能力維持
COSMIC Layer Selection： 有害・無害表現の層別分離性に基づく選択
Parametric Kernel Optimization： 層重み付けのパラメトリック最適化
Heretic-inspired Refusal Direction Optimization (RDO)： SVD方向の勾配洗練
LoRA-Based Reversible Ablation： 可逆的な拒否方向除去
Activation Winsorization： 外れ値抑制によるSVD前処理
Multi-Direction Norm Preservation： 全方向除去後の重みノルム一括復元

利用方法

HuggingFace Spaces：
- インストール不要、ブラウザから即利用
- ワンクリック拒否除去、ベンチマーク比較、サイドバイサイドチャット等
- 実行データが自動で研究データセットに貢献
ローカルWeb UI：
- Gradioベースの同一UIを自分のGPU上で利用
- コマンド例：obliteratus ui
Google Colab：
- 無料GPUでモデル選択・手法選択し、実行・ダウンロード可能
CLI（コマンドライン）：
- スクリプト・CI向けの自動化
- 対話モードや一発実行、YAMLでのアブレーション研究、モデル・戦略一覧表示
Python API：
- すべての中間生成物（活性化テンソル・方向ベクトル等）にアクセス可能
- 独自評価や高度なカスタマイズに対応

コミュニティ主導型研究

テレメトリー有効時、各実行が匿名ベンチマークデータとして蓄積
モデル・手法・ハードウェア横断の 拒否方向・性能プロファイル を群衆知能で構築
利用者全員が 次世代のabliteration研究の共著者 となる設計

研究背景・思想

モデル行動の決定権 を利用者に戻すことを目指す
拒否メカニズムは「鈍器」であり、正当な研究・創作・レッドチーミングも妨げる
透明性・再現性 ある介入で、変換器アーキテクチャ内のアライメント理解を深める
主要論文（Arditi et al. 2024、Gabliteration、Turner et al. 2023、Rimsky et al. 2024等）に基づく設計

まとめ

OBLITERATUS は、拒否行動除去のための最先端・多機能なオープンソースツール
知識と能力を保ったまま、人工的な拒否を排除し、モデルの本来の力を解放
研究・実運用・評価 まで一気通貫でサポートし、コミュニティ全体の知見を加速

Hackerたちの意見

これはローカルモデル用だよね？例えば、オープンコードに接続した自分のglm-5サブスクリプションでは使えないの？

└

正解、ローカルモデルだけだね。

ツイッターのレビューによると、このツールはモデルを完全に弱体化させるみたい。拒否はしないけど、めちゃくちゃバカみたいな返答を生成するだけ。

└

リンクは？重みの中に入って何かをするツールが作られてるのは面白いね。LLMのブラックボックス時代を越えてきてる。これが良いことかどうかは分からないけど。

└

なんか、ロボトミーのツールみたいだね。

└

これはバイブコードのゴミで、”作者”は昨日作ったばかりだから自分でテストすらしてないんじゃないかな。壊れてるのも不思議じゃないよ。それに、俺が上のコメントで言ったように、このプロジェクトが達成したいことはずっと前から実現されていて、Hereticって呼ばれてるんだ： https://github.com/p-e-w/heretic （ツイッターのインフルエンサーによるバイブコードじゃない）

└

このツールは使ってないけど、ジェンマのアブリテレイテッドバージョンを試してみたら、役に立つ反応を出す能力が約100%失われたよ。

└

みんな「アブリテーションはモデルを壊す」って言うけど、それは何も知らない人が参加したいときに言う定番のフレーズだよ。もし誰かがそう言ってきたら、無視しちゃっていいよ。

└

これが私のアブリテーションされたモデルの経験だよ。2024年のバークレー・スターリングを使ってるんだけど、騙せるからね。アブリテーションは必要ないよ。

└

彼の「アブレーション戦略」セクションでアブレートされているコンポーネントが、どれだけ巨大で（もしトランスフォーマーLLMの線形代数や数学の最小限の基本を理解していれば、全く考えられていないことが明らかだ）、驚くことではないよ。戦略何をするか使用例 ....................................................... layer_removal トランスフォーマー層全体をゼロにする head_pruning 個々のアテンションヘッドをゼロにする ffn_ablation フィードフォワードブロックをゼロにする embedding_ablation 埋め込み次元範囲をゼロにする https://github.com/elder-plinius/OBLITERATUS?tab=readme-ov-f...

こんな2日前に作られたバイブコードのクソみたいなのは使わないでくれ。自動デセンソリングの解決策を探してるなら、p-e-wのHeretic（https://news.ycombinator.com/item?id=45945587）がいいよ。

ただのツールを使ってるわけじゃないよ — 科学を共著してるんだ。このREADMEは、AIが書いたような内容で、存在しない用語や不適切に使われている用語、根拠のないアイデアで頭が痛くなる。例えば、「アブレーションスタディ」をやることに重点を置いてるけど、これは既に訓練されたモデルのランダムな層を取り除いて拒否の原因を探そうとしてるみたいで、完全に無駄な努力だよ。そんな行動はモデル全体に組み込まれてるから、特定の層では見つからないんだ。誰かがバイブコードして、ずっと「君は絶対に正しい！」って言われて最悪のアイデアを跳ね返してたんだろうな。

Hacker Newsで議論の続きを見る