世界を動かす技術を、日本語で。

LLMは損失のある百科事典です

概要

  • LLMは「ロスのある百科事典」として例えられる存在
  • 膨大な知識を圧縮して持つが、情報の一部が失われている
  • 詳細な質問には限界があり、適切な使い方が重要
  • 特定分野の詳細には「正しい例」を与える必要
  • LLMは事実を基に活用するツールとして理解すべき

LLMは「ロスのある百科事典」という比喩

  • LLM は膨大な 知識 を圧縮して保持するAIモデル
  • 圧縮による「 ロス」があり、すべての細部を保持していない
  • Ted Chiang も類似の指摘をしている
  • 使い手が「どの質問に有用な答えが返るか」の 直感 を養う必要
  • 例えば「ZephyrプロジェクトのPi Pico用スケルトン作成」など、 非常に詳細な構成 は苦手
  • こうした質問は「 ロスレス百科事典」向けの内容

LLM活用のための考え方

  • LLM に極めて具体的な事実や設定を期待しすぎない姿勢
  • 詳細な実装例や構成には「 正しいサンプル」を提示することが重要
  • LLMは「 与えられた情報」をもとに推論・生成するツール
  • 事実を教え込むことで、 補助的な役割 として活用可能
  • LLMは「 万能な知識源」ではなく、 補助的な思考パートナー として認識すべき

Hackerたちの意見

そうだね、LLMは人間の言葉で答えるインターフェースを持ったロスィな百科事典みたいなもんだよ。便利な点もあるけど、主にその点が強調されるね。実際の百科事典のページをたくさん読まなくても、すぐに答えが得られるから。でも、明らかにデメリットもある。今のところ、LLMは質問が間違っているかどうかや、もっと先に答えるべき質問があるかを判断できないんだ。いつも何かに答えようとする。人間なら、まず質問者を見て、通常はもっと詳しい情報を求めてから答えるよね。これが、LLMの回答が時々バカみたいに感じる主な理由だと思う。明確さを求めることがないからね。

新しいモデルについては、必ずしもそうとは思わないよ。Claude 4やGPT-5が明らかに隙間のある質問に対して明確さを求めるのを見たことがある。GPT-5では、考えの過程で明確化が必要な質問を見つけて、最も可能性の高い答えを選んで、後で「あなたがXを意味していたと仮定して…」っていう答えを出すこともある。明確な曖昧さのそれぞれの枝に対して、2つのセクションで答えを提供することもあったよ。

これが、Kagi Assistantが私が見つけた中で最高のAIツールである理由でもある。失敗状態は検索結果と同じで、何も見つからないか、無関係なものを見つけるか、質問の前提に矛盾する素材を見つけるかのどれかだ。データセットにもっとピン留めできるほど、良くなるように思える。

ロスィな百科事典は、情報が欠けていることが明らかであるべきで、知らないうちに作り上げたり、毎回答えを変えたりするのはダメだよ。圧縮された音声や画像ファイルのようなロスィなメディアを持っていると、元のものとの類似性が常に見えるし、劣化もわかる。ランプのJPEGをクリアに持っていて、それを圧縮したら、クリアな天の川の画像が出てくるなんてことはないし、画像を再オープンしたら、クリアな土の山の画像が出てくるなんてこともない。さらに、百科事典は目標なしに参照して学べるもので、全く知らない情報をじっくり見ることができる。でもLLMは、答えを得るためにクエリを送らなきゃいけないから、そうはいかないんだよね。

アナロジーのポイントを見逃してると思うよ:ロスィな百科事典は明らかに悪いアイデアだ。百科事典は事実を調べるための信頼できる場所であるべきだからね。

ランプのクリアなJPEGを持っていて、それを圧縮したら、クリアな天の川の画像が出てくるなんてことはない。ああ、でもそれよりももっとひどいことがあるんだ。ほとんどのLLMは動作の仕方が決定論的じゃないから、毎回異なる土の山のクリアな画像を得ることができるんだ。[1] 「モデル + プロンプト + シード」があれば、少なくとも毎回同じ出力を得ることが保証されるモデルもあるよ。ちなみに、私はLLMを使っているけど、出力が決定論的でない限り、私が作るものに統合することはできないんだ。

確かに、百科事典もIMOやIOIで金メダルは取れないから、同じものではないよね。例えとしては結構いいけど。

実は、俺は違う意見だな。現代のエンコーディングフォーマットも、ブロックを幻覚することがあるよ。LLMよりは目立たないし、ドラマチックじゃないけど、結構頻繁に起こるから、主要なイベントでは「証拠」とされる動画に基づく誤った陰謀論が出てくることが多いんだ。

すべてのユースケースに合う「すべき」っていうのはないと思うな。例えば、ブルームフィルターも自分が何を知っているか「知っている」わけじゃないし。

ロス圧縮は確かに何かを作り上げる。これを圧縮アーティファクトと呼ぶ。圧縮された音声では、クリック音やボイン音、エコーやプレエコーのようなものがある。圧縮された画像では、エッジ近くの波状効果や滑らかに変化する領域でのバンディングが見られるけど、例えば、ある数字が別の数字のきれいなバージョンに置き換わることもある。これは、君が話しているLLMの失敗モードにぴったり合ってるよ。圧縮アーティファクトは一般的に画像や音声、動画の小さな部分に影響を与えるけど、アナロジーでは「全体」は百科事典で、アーティファクトはその小さな部分に影響を与えている。もちろん、アナロジーは正確ではないけどね。だから、S.W.が「LLMのための疑わしいアナロジーを集めるのが好きだから」と言って投稿を始めるんだ。

その議論は、バナナは柔らかいハンマーだってことなんだ。ハンマーは柔らかくない方がいいって言ってるんだよね。サイモンは「バナナをハンマーとして使うな」って言ってる。

AIと圧縮にはたくさんの類似点があるよ。実際、最高の圧縮アルゴリズムとLLMは、次の単語を予測することで動作するという共通点がある。圧縮アルゴリズムは、予測と実際のデータの違いを効率的にエンコードするためにエントロピーコーディングという追加のステップを取るんだ。予測が良ければ良いほど、圧縮率も良くなる。LLMが「ロスィ」なのは、「違いをエンコードする」ステップがないからだね。そう、LLMを(ロスレスの)圧縮アルゴリズムに変えることもできるし、大規模データセットに対する圧縮率に関しては本当に良いものになると思う。gzipのような圧縮アルゴリズムを言語モデルに変えることもできる! すごくひどいモデルだけど、出力はランダムなバイトのストリームよりはマシだよ。

算術コーディングって便利なトリックを使えば、LLMをロスレス圧縮アルゴリズムに変えられるんだよ!

一つの違いは、圧縮が解凍時に一つだけのものを提供することだ。解凍は、任意の追加入力を取り込み、それに基づいて潜在的に任意の非決定的な出力を生成する機能ではない。もしLLMが単にウィキペディアの一つのロス圧縮されたバージョンに爆発するもので、トピックXに関する記事を見れば毎回同じ記事が得られるなら、私たちの会話は全く違ったものになっていただろうね。

これが次のAIの進展、特にLLMベースのAIにとってかなり重要になると思う。私にとって、トランスフォーマーアーキテクチャは、周辺での新たな行動を引き出すために利用されている一種の圧縮アルゴリズムなんだ。でも、これは計画的な思考というよりは、意識の流れに近いと思う。最終的には、潜在空間で「考える」方法を見つけて、既存のAIモデルがただの口先だけになると思う。人間としての経験から言うと、あるテーマについて知識が多ければ多いほど、あるいはそのテーマに関するコンテンツをたくさん見ていればいるほど、説得力を持って話すのが簡単になるんだ。これはミラーリングのスキルみたいなもので、実際には自分が言っていることを理解しているわけではないんだよね。LLMも同じことをしていると思う。スケールで見るとこれは広く役立つけど、私はそれを軽視しているわけじゃない。ただ、今のLLMが意識の流れのようなAGIを作るって話は、ちょっと的外れな気がする。

著者に完全に同意するよ。残念ながら、LLMのユーザーの大多数がそういうふうにLLMを見ているとは思えない。AI企業のマーケティングもそうじゃないし。 > 重要なのは、役立つ答えを出せる質問と、ロスィさが問題になる詳細レベルの質問を見分ける直感を育てることだ。問題は、LLMが答えられる質問の直感を育てるためには、ユーザーが事前にそのトピックについて何かを知っている必要があることだと思う。この初期の理解が欠けていると、LLMの出力を事実として受け取ってしまうことにつながるんだよね。やり取りの片方がそのテーマについて何も知らないと、もう片方は専門用語を使ったり、ランダムな事実やロスィな事実を提示したりして、ほぼ確実に相手を感心させることができる。 > この特定の問題を解決する方法は、正しい例を提供することだと思う。私の質問は、LLMが質の高くて役立つデータを出力する前に、正しい例を提供するのにどれくらいの努力が必要かってこと。もし私がかける努力が得られるリターンよりも多いなら、自分で書いて考えた方がいいと思う。

問題は、LLMが答えられる質問について直感を育てるためには、ユーザーが事前にそのトピックについて何かを知っておく必要があることだよ。だから、simonw(著者)は「自転車に乗ったペリカン」テストを提唱してるんだ。100%正確ではないけど、良い指標にはなる。俺は自分のスタンダードな質問や問題のセットを持ってて(文字数を数えたり代数のクソみたいなことはしない)、新しいLLMをテストする時にそれを使ってる。質問は全部俺のObsidianノートの中にしか存在しないから、LLMの作者に攻略されることはないんだ。いくつかの異なるLLMを使ってテストしてるから、答えがどうあるべきか「感覚」としてわかってるし、正しい答えも知ってるからすぐに検証できるんだ。

ユーザーは事前にそのトピックについて何かを知っておく必要がある。だから、ここHNや他の場所で何度か言ったけど、LLMを使うなら自分をジュニアからミッドレベルの開発者を指導する建築家だと思った方がいい。ジュニアは素晴らしいことができるけど、ひどいミスをすることもあるんだ。本当に面白いのは、彼らに新しいコンテキストウィンドウで自分のコードを監査させて、そのコードがひどい理由を詳しく説明させることができることだ。私は主に個人プロジェクトで使ってるけど、必要に応じて素早くプロトタイプができるからね。

ユーザーは少なくとも事前にそのトピックについて何かを知っている必要がある。週末にChatGPT 5を使って、特定の薬の投与ガイドラインを確認したんだ。「薬の投与ガイドラインを提供して [ここに挿入]」って入力したら、10倍も間違った投与ガイドラインが返ってきた(1mgの代わりに100mcgを提案された)。100mcgを見たとき、私は疑問に思って「それは違うと思う」って言ったら、すぐに訂正して正しい投与ガイドラインを提供してくれた。こういう無邪気な間違いは、ユーザーが盲目的に信じると危険なんだよね。主な課題は、LLMは自分の答えに対する自信を測れないから、情報をどれだけ自信を持って伝えるかを調整できないことなんだ。写真を圧縮して、写真家が「これが私が持っている最高の品質の画像です!」って言うようなもので、あなたはその写真家の言葉を信じるのか、それともより良い品質の画像を探すように挑戦するのかって感じ。

「...彼らは大量の事実を圧縮して持っているが、その圧縮はロスィだ(テッド・チャンも参照)」確かに、テッドの作品(ChatGPTはウェブのぼやけたJPEGだ)はここにあるよ: https://archive.is/iHSdS

2023年の注目ポイントだね。

LLMは一種のロスのある百科事典として使えると思うけど、直接的に同じものとするのは正確じゃないかな。人間の心も、ある意味ではロスのある百科事典だしね。俺はLLMをロスのある予測器として考えたい。考えてみれば、自然の「知性」自体も別のタイプの予測器として理解できるんだ。次に何が起こるかを予測するために世界モデルを構築して、それに基づいて行動を計画して生き残るわけだから。現実の世界では、無数の曖昧な要素があるから、完璧にロスレスな予測器なんて存在しないよ。俺にとっての唯一の違いは、今のところLLMは人間の心よりもロスが多い予測器だってこと。それだけなんだ。どんな例えを使っても、結局は百科事典として捉えるかどうかに関わらず、常に何らかのロスがあるってことに気づくことになるね。

LLMは本当に人間よりロスが多いのかな?それは文脈によると思う。特定の例を挙げれば、LLMは幻覚することが多くて、人間の方が正確にやるかもしれない。でも全体的に見ると、LLMは人間よりも遥かに多くのことを記憶しているよ。去年読んだ本の内容を人間に再現させてみると、何も出てこないか、本の内容についての曖昧なアイデアしか出てこない可能性が高いから、この文脈では最大で100%ロスがあると言えるね。ここでの違いは、人間の記憶は時間とともに衰えるけど、LLMの記憶はハードワイヤードされているってことだね。

考えてみると、自然な「知性」自体は別のタイプの予測器として理解できる。世界モデルを構築して次に何が起こるかを予測し、それに応じて行動を計画して生き残るんだ。そうだね。人間の知性は三つの要素から成り立ってる。まず、基盤性:世界とその中での自分の位置を表現する能力。次に、時間・空間感覚:客観的な空間と時間の中での主観的で限られた自己の概念。三つ目:広範な抽象が可能な一般的な予測機能。最も基本的なレベルでは、この三つ目の要素が人間に外部の知識を取得、処理、保存、表現、そして再取得する能力を与えている。これは厳密な意味での計算だ。そして、この三つ目の要素、つまり予測機能の強さ、速さ、広がりが「知性」という言葉と同義なんだ。高等動物はこの三つの要素を持ってるけど、特に三つ目はかなり曖昧なんだよね。そして、人間の場合、短い時間の視野は知的鈍さと同義だ。これらすべてを言うと、もし「予測機械」を持っていれば、真の「知性機械」への90%の道を進んでいるってことだと思う。それは、将来的により強固なAIに繋がるルートを示唆しているとも思う。(AIを基盤にして、時間と空間に限られた物理的存在を与え、外の世界に合わせた時計を持たせる。)

もう一つの違いは、リアルタイムで未来の感覚体験を予測しているのに対して、LLMは「役に立つ、正直で、無害な」アシスタントが生成するテキストを「予測」していることだね。

世界モデルを構築する。LLMの基礎的な考え方(もしそう言うなら)は、トレーニングを「理解する」ために意味論的(世界)モデルを構築することだ。しかし、実際にはトレーニングに応じて単に構文モデルを構築している可能性が高い。私の知る限り、意味論的モデルが出現した証拠はないんだ。

ロスがあるってのは不完全な表現だね。LLMはもっと変動が大きくて曖昧だし。プロンプトによっては、同じ(たとえロスがあっても)知識から全然違う出力が出ることもある。トレーニング中だけじゃなくて、推論中にもロスや変動があるんだ。全体的に見て、LLMは知識や考え方、説明に関してはほとんどの人間よりも一貫性がないし、まとまりがない。

AIが圧縮と密接に関連しているっていうのは、よく知られた考え方だよね。例えば、http://prize.hutter1.net/ LLMは重要なテキストの特徴を保持しつつ、テキストのロスのある圧縮の一形態だと主張するのは合理的だと思う。著作権のある作品の低品質なロス圧縮版を配布することが違法と見なされる前例もあるし。

実際に百科事典にアクセスできれば、ロスレスになるかもしれないね。人間の言語をAPIコールに変換して、APIコールの結果を人間の言語に戻すエンジンと考えれば、ロスレスな百科事典のように見える。自然言語を扱うための基本的な構成要素だし。シミュレーションされた知能は言語モデルとしての能力の証明だけど、時々すごくバカみたいで「知識モデル」って感じがしないんだよね。

LLMがこういう風に検索に使われてないのがすごくイライラする。むしろ、検索を使って他のものに見せかけて、人を騙してお金を取ろうとしてる感じ。実際の検索エンジンもこういう使い方してないし。Googleの「AI概要」は、知らないことを学ぼうとするのに逆効果だよ。RAGはLLMを使った中で一番クールなもので、私にとっては、マーケティングされてるAIツールの大半よりもはるかに役立つはずなのに、実際に実装されてるのはナンセンスなんだよね。

メンタルモデルとしては、LLMは基本的にプログラムの実行環境だね。コードが入って、出力が出る。正しい出力の確率P(正しい出力|プログラム)があって、モデルやプログラムが良ければ良いほど、その確率は高くなる。悪いモデルでも、正しいプログラムを与えれば正しい出力が出せることもある。最も難しい出力も、プログラムが「これが出してほしい出力だ、逐語的に繰り返せ」って言うだけなら簡単なんだよね。重要なのは、成功の確率が最も高いプログラムを効率的に探すことだよ。

モデルにどんどんデータを詰め込む主流のトレンドにすごくイライラしてる。これって、常にオーバーフィットするレシピになりそうだし、個々の事実の再構成が期待されるときにオーバーフィットを避ける方法が理解できない。さらに、この大量の埋め込まれたパラメータは、コストがかかり、運用が非効率的で、単純に役に立たなくなるはずだよ。例えば、知識グラフ(理想的には真実のソースで注釈付き)に基づいていて、そういうグラフをしっかりクエリするように最適化されている方がずっと良いのに。モデルの重みはデータを保存するにはひどい方法だよ。モデルは百科事典になろうとするべきじゃないし、絶対にそう見せかけるべきじゃないって感じるのは私だけじゃないはず。結局、マーケティングの問題だと思う。モデルは「賢い」として売られていて、西洋文化での賢さは、どんなトピックについても自信満々に事実のような文を話すことなんだ。だから、そういうのが出てくるんだよね。なんて無駄なんだ。