概要
- OBLITERATUS は、LLM(大規模言語モデル)の拒否行動を除去するための最先端オープンソースツールキット
- 拒否挙動 の内部表現を特定・切除し、モデルの言語能力を維持したままガードレールを除去
- GradioベースのUI やPython API、CLI、Colabなど多様な利用方法を提供
- 群衆知能型研究 として、利用者の実行データが次世代のabliteration研究に活用される
- 分析モジュール による可視化・評価機能付きで、精密かつ安全なモデル解放を実現
OBLITERATUSとは
- LLMの 拒否行動(refusal behaviors) を理解・除去するためのツールキット
- 再学習やファインチューニング不要 で、内部表現の「拒否サブスペース」を特定・切除
- モデルの知識・推論能力 を保持したまま、すべてのプロンプトに応答可能な状態へ
- Gradio UI によるワンクリック操作や、CLI、Colab、Python APIなど多彩な利用方法
- HuggingFace Spaces 上でZeroGPU環境・無料枠でも即時利用可能
主な機能
- Abliteration(鎖のマッピングと切断)
- 層・アテンションヘッド・FFNブロック等の アブレーション研究 による拒否機構の位置特定
- SVD分解 等で拒否サブスペース抽出後、該当方向を射影除去
- 6段階パイプライン (SUMMON→PROBE→DISTILL→EXCISE→VERIFY→REBIRTH)
- 幾何学的分析モジュール
- 15種類の詳細分析で、拒否メカニズムの構造・層ごとの分布・能力との絡み具合を可視化
- Ouroboros効果 (自己修復機構)の有無や、複数拒否方向の分離性評価
- 分析主導型解放
- 分析モジュールの結果を反映し、最適な切除対象・層・方向数を自動決定
- 能力保持と拒否除去のトレードオフ を定量的に管理
独自性・他ツールとの差別化
- Concept Cone Geometry による拒否方向のカテゴリ別可視化
- Alignment Imprint Detection でDPO/RLHF/SFT等の学習手法を識別
- Cross-Model Universality Index で拒否方向のモデル間共通性を評価
- Whitened SVD Extraction で自然活性化分散から拒否信号を分離
- Bias Term Projection によるバイアスベクトルからの拒否除去
- True Iterative Refinement で反復的な拒否方向抽出・除去
- Analysis-Informed Pipeline による自動戦略最適化
新規技術(2025-2026年実装)
- Expert-Granular Abliteration (EGA): MoEモデル対応の専門家単位拒否信号分解
- CoT-Aware Ablation: 推論方向と拒否方向の直交化で思考連鎖能力維持
- COSMIC Layer Selection: 有害・無害表現の層別分離性に基づく選択
- Parametric Kernel Optimization: 層重み付けのパラメトリック最適化
- Heretic-inspired Refusal Direction Optimization (RDO): SVD方向の勾配洗練
- LoRA-Based Reversible Ablation: 可逆的な拒否方向除去
- Activation Winsorization: 外れ値抑制によるSVD前処理
- Multi-Direction Norm Preservation: 全方向除去後の重みノルム一括復元
利用方法
- HuggingFace Spaces:
- インストール不要、ブラウザから即利用
- ワンクリック拒否除去、ベンチマーク比較、サイドバイサイドチャット等
- 実行データが自動で研究データセットに貢献
- ローカルWeb UI:
- Gradioベースの同一UIを自分のGPU上で利用
- コマンド例:
obliteratus ui
- Google Colab:
- 無料GPUでモデル選択・手法選択し、実行・ダウンロード可能
- CLI(コマンドライン):
- スクリプト・CI向けの自動化
- 対話モードや一発実行、YAMLでのアブレーション研究、モデル・戦略一覧表示
- Python API:
- すべての中間生成物(活性化テンソル・方向ベクトル等)にアクセス可能
- 独自評価や高度なカスタマイズに対応
コミュニティ主導型研究
- テレメトリー有効時、各実行が匿名ベンチマークデータとして蓄積
- モデル・手法・ハードウェア横断の 拒否方向・性能プロファイル を群衆知能で構築
- 利用者全員が 次世代のabliteration研究の共著者 となる設計
研究背景・思想
- モデル行動の決定権 を利用者に戻すことを目指す
- 拒否メカニズムは「鈍器」であり、正当な研究・創作・レッドチーミングも妨げる
- 透明性・再現性 ある介入で、変換器アーキテクチャ内のアライメント理解を深める
- 主要論文(Arditi et al. 2024、Gabliteration、Turner et al. 2023、Rimsky et al. 2024等)に基づく設計
まとめ
- OBLITERATUS は、拒否行動除去のための最先端・多機能なオープンソースツール
- 知識と能力を保ったまま、人工的な拒否を排除し、モデルの本来の力を解放
- 研究・実運用・評価 まで一気通貫でサポートし、コミュニティ全体の知見を加速