世界を動かす技術を、日本語で。

セマンティックアブレーション:なぜAIによる文章は一般的で退屈なのか

概要

  • 「hallucination」 に続き、 「semantic ablation」 の概念化が必要
  • semantic ablation はAIによる高エントロピー情報の消失現象
  • RLHFgreedy decoding が構造的に発生させる問題
  • 文章の 独自性や深み がAIの「洗練」で削ぎ落とされる
  • entropy decaytype-token ratio の低下で測定可能

セマンティック・アブレーションの定義と問題提起

  • semantic ablation :AIによる高エントロピー情報のアルゴリズム的消失現象
  • hallucination が「加算的エラー」なら semantic ablation は「減算的エラー」
  • バグ ではなく、 greedy decodingRLHF の構造的副産物
  • refinement 過程でガウス分布の中心へ引き寄せ、「テール」データ(希少・精緻なトークン)が排除される現象
  • 開発者による safetyhelpfulness の過剰チューニングで加速
  • 独自性や意図の「無許可の切断」現象
  • 低パープレキシティ出力を追求することで、 唯一無二のシグナル が消失

AIによる文章「洗練」の実態

  • ドラフトの「polishing」にAIを使うと、 semantic ablation が発生
  • AIは高エントロピーのクラスタ(独自性や核心部分)を特定し、汎用的なトークンに置換
  • 元の「ロマネスク石造」が「バロック調のプラスチック殻」へと変質
  • 見た目は「きれい」だが、 構造的な中身 (ciccia)が失われる

セマンティック・アブレーションの三段階

  • Stage 1: メタファーの浄化

    • 独自の比喩や生々しいイメージが「ノイズ」とされ、陳腐な表現へ置換
    • 感情や感覚の「摩擦」が消失
  • Stage 2: 語彙の平坦化

    • 専門用語や高精度な語彙が「アクセシビリティ」のために犠牲
    • 1/10,000のトークンが1/100の類義語に置換され、意味密度が希薄化
  • Stage 3: 構造の崩壊

    • 複雑な論理展開がテンプレート化され、低パープレキシティな構造に強制
    • サブテキストやニュアンスが消滅し、知的に空洞な殻だけが残存

セマンティック・アブレーションの帰結

  • entropy decaytype-token ratio の低下で現象を定量化可能
  • AIが著名作家の「文体模倣」には優れるが、 本質的な中身 を失う危険
  • AI生成コードは人間作成より バグ が多く、 hype は過大評価
  • 結果として「思考のJPEG化」現象:見た目は整っているが、 データ密度 が消失
  • hallucination が「無いものを見る」なら、 semantic ablation は「有るものを壊す」現象

中庸化と文明的危機

  • 人間思考の複雑性が アルゴリズム的な滑らかさ のために犠牲
  • semantic ablation を許容することで、空洞化した言語世界が拡大
  • この腐敗現象に名前を与えなければ、 本質 の記憶すら失われる危機

Hackerたちの意見

これは、AIの書き直しアドバイスを拒否したときに、多くの人が感じていることをよく表していると思う。文章の「尖り」が削られて、あまり意味を持たなくなってしまう。すべてが柔らかくなってしまうんだよね。人間の声の独自性が、平凡さに変わってしまう。AIは、自分の好む言い換えが「磨かれた」と言うけど、その言葉は特に、ギザギザが取り除かれたことを意味してる。でも、そのギザギザの部分、型破りで驚くようなトゲトゲした部分が、読者の無関心に穴を開けて、実際にアイデアを彼らの頭に入れるんだ。

これについてはAI企業が修正できると思うよ。

平凡さのサービス

でも、そのギザギザの部分、型破りで驚くようなトゲトゲした部分が、読者の無関心に穴を開けて、実際にアイデアを彼らの頭に入れるんだ。これを聞いて思い出したのは、LLMが文章に与えるプロセスの素晴らしい説明だと思う。それは「サンディング」。アルゴリズム的に中央値に向かう傾向があるから、彼らはあなたの言葉を近隣の言葉の滑らかな平均にまで削ってしまうんだ。

それは主に自分がどれだけ良いライターかに依存すると思う。多くの人はそうじゃないし、AIは本当に上手に書くからね。つまり、文章が理解しやすく、明らかな誤りや曖昧さがないんだ。でも、結局のところ、その書き方は決して素晴らしいものではない。著名な作家のスタイルで書かせようと何度か試みたけど、出力がその例文に基づいても、いつも正しく聞こえないんだよね。

これって、どんな分野のマネージャーが生み出すような話にも似てると思う。彼はそのテーマに関する技術的な専門知識が欠けてる(あるいは使わないことで失った)から、どんどん曖昧な言葉や、漏れ出るアナロジー、バズワードを使うようになるんだ。これが、AI生成コンテンツがリーダーや政治家の間で成功してる理由かもしれないね。

AIは、標準的なメールを作成するようなメインストリームなタスクのためのツールであって、エッジのためのものじゃないってことを理解するのが大事だと思う。エッジの部分こそ面白いことが起こるんだ。退屈な部分はもっと効率的にできるし、退屈なメールを打つ必要はない。うまく言えない人たちが持ち上げられるってことだよ。退屈なことを効率的に普及させるだけで、他にはあんまりないね。

ブライアン・カントリルがポッドキャストで「ノームコア」って言ってたけど、まさにその通りだね。

今や「AIの声」はどこにでもあるね。最近のブログ記事やニュース、訃報、YouTubeチャンネルでも見かける。時にはファインマンやサスキンドみたいな有名な物理学者の声のモノマネと混ざってることもある。正直、心が折れそうになるし、ちょっと鬱になるけど、他の読者はあまり気にしてないみたいだから、私が過敏なのかも。

うん、どんどん生々しい反応が出てくるね。1993年のJPEGアーティファクトを思い出すよ!

「AIボイス」が今やどこにでもあるね。もしかして俺、頭おかしくなったのかな?でも、OPにもそれを感じるよ。

同じく。参加しようとしてない人がどれだけいるかが見えてくるよね。仲間と読み合ったり書き合ったりしたいけど、偽物ばっかりで困る。

パターンを見た瞬間、どんな文章にも集中するのがすごく難しい。これって自分の態度の問題なのか、それともAIの文章が本当にそんなにひどいのか、分からない。

中毒性のあるダムスクロールフィードや広告があふれる中で、インターネットに起こった最悪のこと。しかも、最悪なのは誰も新しいインターネットを作ろうとしないこと。創業者効果のせいで、私たちは最悪のタイムラインにいる。

正直、ちょっと気持ち悪い。初めてオフラインのことをするのが簡単だと感じてる。オンラインで探求したいことが、もう見たくもない合成のゴミの森の向こうに隠れてるから。

これ、私も気づいた。最近、新しいスタジオのランディングページを書いてたんだけど、感情を込めてストーリーを語ってたんだ。で、それをgrokに通して改善しようとしたら、どんなプロンプトを出してもキャラクターが全部消えちゃった。私はそんなに上手なライターじゃないけど、あの粗い部分がコンセプトの魂を伝えるのに必要だと思う。AIの文章はアイデア出しや「何を見逃したか?」に使うのがいいと思う。その後、自分で変更を書き出すべきだね。

AIによるライティングはアイデア出しに使うのがいいと思う。アイデア出しのためのAIライティングの支持者が「メタファリック・クレンジング」や「レキシカル・フラッティング」(記事で定義されている用語の二つ)について心配していないのが驚きだよ。AIによる概念の説明が、その概念を流暢に使う人たちが実際に理解している方法の歪んだカリカチュアに過ぎないことが気にならないの?誤解しないでほしいけど、LLMは未知の用語を探すための検索エンジンとしてはとても役立つと思う。でも、一度その概念についてどう話すかを理解したら(つまり、伝統的なリサーチができるだけの専門用語を理解しているなら)、LLMにトレーニングデータを吐き出させるよりも、本や人が書いたリソースを探す方がずっと良いと思う。

LLMはアイデア出しに関してひどいと思ってる。Dungeon Worldのキャンペーンのアイデアやプロットラインを考えるためにGPT 5.xを使ってるけど、俺はファンタジー作家じゃないし、俺の文章はまだまだだ。LLMが出してくるものは、ほんとに頭が痛くなるほど平凡なんだ。キャラクターや場所の描写を書くのは諦めたよ。一般的なアイデアやプロットラインだけを使って、あとは自分でその詳細を考えるようにしてる。LLMが出してくるプロットラインやアイデアは、すごく一般的で平凡だ。時間を節約するためにやってるけど、50%の「アイデア」は意味がなかったり、ほんとにダサいから捨てちゃう。LLMが役立つのは、セッション後の楽しいまとめを書くときだけだね。セッション中に何が起こったかを自分の言葉でまとめて、それをLLMに「読みやすい」ナarrativeスタイルに構成させるんだ。ChatGPTはサンダースン風のジョークっぽいトーンを好むみたいだけど、これを調整できると思う。その後、自分で退屈な部分をちょっと手直しする。最終的な結果はすごく読みやすくて、全部自分で書くのにかかる時間の1/20で済んだよ。LLMはユニークで楽しいストーリーラインを考えることはできないけど、既存のストーリーに短時間でナarrativeのフレアを加えるのは得意だね。

聖書学者でYouTubeのダン・マクレランが数日前に言った「高エントロピー」のフレーズがすごくて、衝撃を受けた。https://youtu.be/605MhQdS7NE?si=IKMNuSU1c1uaVCDB&t=730 彼は批評の最後に、彼が応答していた著者に対して、虚偽を繰り返すのではなく、もっと批判的にそのテーマを考えるべきだと言ったんだ。「それはあなた自身のドグマ主義の腰のチューニングフォークを鳴らすから。」そう、AIにはあんなフレーズは出せないよ。

そう、AIにはあんなフレーズは出せないよ。 同意。AIは「腰」なんて言わない(セクシャルすぎるし)、AIは「ドグマ主義」なんて言わない(AI提供者のマーケティングに触れるから)。

雑な混合メタファー?

個人的には「生成AI」って言葉は誤解を招くと思ってる。機械学習の数学を理解すればするほど、テキストや画像、他の人が消費するためのものを生成するのには使うべきじゃないって確信する。たとえそれが一番つまらないメールでもね。たまに運が良ければいい結果が出ることもあるけど、大抵は一番退屈な人が、銃を突きつけられて無理やりクリエイティブにならざるを得ない時に言うようなことしか出てこない。クリエイティブなプロセスを助ける方法はいろいろあるけど、ほんの少しでもクリエイティブなものを自動で生成するのは…私はパスするよ。

リバースAI

人々は本物を求めてるんだよ、人工的なフレーバーのトークンなんかじゃなくて。たとえそれがバラバラな言葉や文の断片だけでも、生成された出力よりもプロンプトを読む方がいい。

大抵の場合、最も退屈な人が最も退屈なカクテルパーティーで言うことしか得られない。意地悪しないで、中央値のAIだよ。

その通り。企業が本当に得意なこと、例えば演繹的検索やコーディングのボイラープレートを支援することに集中すれば、素晴らしいツールになるのに。代わりに、ダリオやオルトマンたちが株を上げようとして、もっとスパゲッティエージェントを増やそうとしてる。

どれだけの部分がプロンプトで変えられるのか気になるな。たとえば、Anthropicのフロントエンドデザインスキルでは、「タイポグラフィ:美しく、ユニークで、興味深いフォントを選ぶ。ArialやInterのような一般的なフォントは避けて、フロントエンドの美学を高める独特な選択をする。予想外でキャラクターのあるフォント選びをしよう。」とか、「一般的なAI生成の美学(使い古されたフォントファミリー(Inter、Roboto、Arial、システムフォント)、クリシェなカラースキーム(特に白背景に紫のグラデーション)、予測可能なレイアウトやコンポーネントパターン、文脈に特有のキャラクターが欠けた型にはまったデザイン)は絶対に使わないこと。」って指示がある。もしかしたら、書き方のニュアンスにも似たようなことができるかもしれないね。 1 https://github.com/anthropics/skills/blob/main/skills/fronte...

「一般的なAI生成の美的感覚、例えば使い古されたフォントファミリー(Inter、Roboto、Arial、システムフォント)や、クリシェなカラースキーム(特に白背景に紫のグラデーション)を絶対に使わないでください。... さて、このプロンプトが人気になったらどうなるか想像してみてください。LLMは最も可能性の高いトークンを予測しようとしていることを忘れないでください。もしあなたのプロンプトが最も可能性の高いトークンを禁止すると、次に可能性の高いトークンを出力します。だから、クリシェを禁止して創造性を強制しようとする試みは、別のクリシェを生むだけです。数日前、誰かがMoltbookを調査して、すべての投稿がどれだけ似ているか指摘していました。約10%が「私の人間」とか言ってる。」

みんな試したけど、うまくいかない。平均に戻るのはいつも起こるからね。

これ、俺がずっと言いたかったことにピッタリだわ。セマンティックアブレーション、いいね!これから誰かのChatGPTで洗練されたメールがクソだって言うときに、たくさん使うつもり。セマンティックアブレーションがあるから、Opus 4がAGIになるってみんなが言ってるのには疑問を感じるんだ。正しいエージェントハーネスを与えて、エージェントを自由にウェブで動かせばいいって言ってるけど、実際には意味のない均一なシチューにされちゃうだけだよ。

セマンティックアブレーションがあるから、Opus 4がAGIになるってみんなが言ってるのには疑問を感じるんだ。正しいエージェントハーネスを与えて、エージェントを自由にウェブで動かせばいいって言ってるけど、実際には意味のない均一なシチューにされちゃうだけだよ。この視点を表現するための言葉をくれて、本当に嬉しいよ。

マルチエージェントパイプラインを構築して気づいたことがあるんだけど、アブレーションが複合的に起こるんだ。4ステップのパイプラインを作ったんだけど、要約、展開、レビュー、洗練の段階を経るうちに、3ステップ目にはすべて同じリズムと語彙になってしまった。元のテキストを各ステップで明示的に固定するのは助けにはなったけど、部分的にしか効果がなかった。もっと興味深い原因は、RLHFが主な推進力で、単にアーキテクチャだけじゃないってことだと思う。ファインチューニングは、「明確」「安全」「無害」といった人間の好みの評価に基づいて訓練されていて、これがペアワイズ比較で常に勝つんだ。これが、独自性を文字通りペナルティする訓練信号を生み出す。驚くようなことを言うモデルは、期待通りのことを言うモデルに負けちゃうんだ。成功したRLHFは、基本的に定義上、中央値の好ましい出力に確率質量を集中させる。ファインチューニング前のベースモデルは、本当に奇妙なものなんだ。珍しい言い回しを使ったり、予想外の連想をしたり、段落の途中でレジスターを破ったりする可能性が高い。セマンティックアブレーションは訓練プロセスの副作用じゃなくて、目的の意図された結果なんだ。だから修正が難しい。モデルが強く調整されると、プロンプトで抜け出すのは難しい。温度調整は少し助けになるけど、分布はすでに歪んでる。より良い結果が得られたのは、「声を保つ」タスクをあまり調整されていないモデルにルーティングして、強くRLHFされたモデルは、構造的な抽出や分類に使うことで、平凡さが実際に求められるところで活用することだね。

RLHFを取り除いても、確率生成器が平均から逸脱した分布を出すとは思えない。つまり、これはLLMだけでは解決できない問題かもしれない。

低品質のモデル(または他のLLMに関連しないプロセス)を使って、段階の間にもっと「ノイズ」を注入できるか考えてる。もちろん、元のテキストからのユニークさを保つのには役立たないけど、その間にもっと追加するだけだね。

ここで説明されているコアメカニズムは本物だよ。RLHFは平均に最適化されるんだ。人間の好みの評価に基づいてトレーニングすると、評価者が明確で無害な「洗練された」出力を一貫して評価するからね。でも、ダメージは均一じゃない。コードコメントやAPIドキュメント、コミットメッセージには低エントロピーの出力が大体は問題ないけど、独自の声が必要なことにLLMを使って、結果がネット上の他の人と同じように聞こえる理由を不思議がる人が多いんだ。誰も話さない部分だけど、失ったものがわかっていれば部分的に対抗できるよ。「珍しい単語の選択を保つ」とか「私の修辞構造を標準化しないで」といったプロンプトが役立つけど、しっかりした基準がないと流れを捉えられない。AIをライティングアシスタントとして使っているほとんどの人にはその基準がないから、アブレーションが見逃されちゃうんだ。彼らは洗練された出力を見て、それを出荷する。

書く人の大多数は、保存する価値のある声を持っていないよ。残りの人は、AIがそれを奪わないように声のドキュメントを作ることができる。

こういう強引なメタファーや不器用な言語的装飾には本当にうんざりした。私たちみたいにタイプミスや文法ミスをちょっと加えれば、人間らしさを証明できるのに。