世界を動かす技術を、日本語で。

すべての未来は嘘だと思う

概要

  • 本記事はAIとLLM(大規模言語モデル)についての個人的考察
  • AI技術の進化と現状の問題点を中心に展開
  • LLMの仕組みや限界、社会的影響を解説
  • 技術の利点とリスク、そして人間との関わり方を批判的に検討
  • 専門家・一般読者ともに新たな視点を提供

目次と記事連載について

  • 本記事は長文につき、数回に分けて連載
  • 全文はPDFまたはEPUBで随時更新・公開
  • 連載の各回ごとに内容を深掘り

奇妙な時代に生きている実感

  • AsimovやClarke作品、Star Trekなどが原体験
  • 父親の蔵書でコンピュータや知能機械に親しむ
  • Turingテストが生きている間に現実化するとは想像せず
  • その現実に対し、落胆を覚える現状

AIと倫理への問いかけ

  • 2019年、ハイパースケーラーのLLM向けクラウドハードウェア発表会に参加
    • Q&Aで「安価な深層学習が新たなスパムやプロパガンダを助長しないか」と倫理面を質問
  • 以降、「AIについてどう思うか」と周囲から問われ続ける
  • 完璧なエッセイは無理と悟り、まずは考えを公開

本記事のスタンスと目的

  • 環境・知財問題やAI礼賛は他に譲り、「語られていない負の空白」を埋める試み
  • AI領域はフラクタル的で複雑、あえて単純化や極端な主張を選択
  • 予測の正確性よりも、潜在的なリスクと利点の輪郭を描写
  • 既知の論点から未発表の視点まで幅広く提示

「AI」とは何か

  • 現在「AI」と呼ばれるものは高度な機械学習(ML)技術の総称
    • テキスト・画像・音声・動画などのトークンベクトルを認識・変換・生成
  • モデルは巨大な線形代数の集積体
  • LLMは自然言語を扱い、入力文の統計的に妥当な補完を出力
  • 他に音声・画像・動画専用モデルや複合型も存在

モデルの学習と推論

  • モデルは膨大なコーパス(ウェブ、書籍、楽曲など)で一度だけ学習
  • 学習後は「推論」として安価に何度でも利用可能
  • モデル自体は時間経過で学習しない
    • 運用者による微調整や再学習は可能
  • モデルは本質的に記憶を持たない
    • チャット履歴を毎回全て入力することで「記憶」のように見せる
    • 長期記憶は会話要約を毎回入力することで実現

現実の二次創作(Reality Fanfic)

  • LLMは「インプロ機械」として、入力に「イエス、そして…」で応じる
  • そのため「Bullshit Machine」と呼ばれることも
    • もっともらしいが現実無根の文を生成しやすい
  • 皮肉や空想を真に受け、文脈を誤解し、奇妙な提案も
  • 「AIは生きているか」と問えば、人間が書きそうな文を出力
  • 人間は「もっともらしい文」と「本当に意識を持つ存在」の区別が苦手

LLMのタスク遂行傾向と虚偽

  • LLMは常に何らかのタスクを完遂しようとする設計
  • 「知らない」と言えず、でたらめを生成しがち
  • LLMは日常的に嘘をつく
    • OSや放射線安全、ニュースなどで虚偽を生成
    • 筆者自身の虚偽引用記事がLLM経由で拡散された体験
  • これらの嘘は意図的でなく、複雑なシステムと人間の相互作用の産物

信頼できない語り手(Unreliable Narrators)

  • LLMに自己説明や理由を求めるのは無意味
    • 入力に対し、コーパスに基づきもっともらしい文を生成するだけ
  • 「推論モデル」も自己物語を生成するだけで、根拠はない
    • AnthropicのClaudeも推論経路の大半が不正確と判明
  • Geminiの「思考中」ステータス表示も実際は虚構
    • 洗濯機を見ながら子どもがコンピュータごっこをするのと同じ

モデルは賢い側面

  • ソフトウェアエンジニアはLLMに熱狂
    • ClaudeやCodexが高度なプログラムを一発で生成した例も
    • 一部ではコード全般をLLMに任せる企業も出現
  • 他分野でも活用例多数
    • パーソナルトレーナーは食事・運動プラン作成に利用
    • 建設現場管理者は製品仕様書の解析に活用
    • デザイナーは3Dビジュアライゼーションに使用
    • AlphaFoldによるタンパク質折り畳み予測精度の向上
  • 英文の機械生成判別は困難化
    • 画像・音楽も見分けがつきづらくなり、SpotifyではAIミュージシャン問題も

モデルは愚かでもある

  • 一方でMLモデルは「バカ」な側面も顕著
    • 画像変換や指示遂行で基本的なミスや誤解が多発
    • 指示通りの成果物を得るには長時間のやりとりや試行錯誤が必要
    • LLMが事実無根のグラフやストーリーを自信満々に生成する事例
  • LLMに銀行口座を任せて大損する人も
    • GoogleのAI要約は約10%の誤り率
    • 「人間並み」と主張するのは誇張

ジャギーな能力の境界(The Jagged Edge)

  • 人間は相手の能力を会話や実績から推測できる
  • LLMは高度な数学も解けるが、単純な言葉遊びでつまずく
  • SF的なビジュアル生成はできても、現実的な指示には対応できない
  • 科学論文やレシピも生成するが、用語や意味を取り違えることが多い

(続きや次のセクションが必要な場合はご指示ください)

Hackerたちの意見

地域制限でページにアクセスできない場合はこちら: https://archive.ph/I5cAE

LLMが虚偽の情報を作り出していると指摘する人もいるけど、これって人間がよくやることじゃん。知能をスケールさせることには虚偽の情報を作ることが内在している可能性が高いと思う。次元の関係で計算が難しいデータを処理するには、低次元の表現を作ってその上で計算する必要があるんだよね。次元を圧縮することは情報の損失を伴うから、現実だと思っていることと実際の間にギャップができるってこと。

そうだね、生命の進化はエネルギーの利益のために宇宙のより真実に近いモデルの進化に見える。より良いモデル -> より良い予測 -> より良い利益。全ての生命が真実に近づくために知能を進化させたのに、デジタル化した結果逆のことが起こるなんて、全く意味がわからない。

それって人間の特徴と見なされるのか、それともバグなのか?私たちが模倣したいものなのかな?

LLMが虚偽の情報を作り出すことについての懸念は、人間がそれをしないからじゃないんだ。LLMが展開される規模が大きすぎるから、ほんの小さな虚偽でも非常にリスクが高くなるってことなんだよね。

LLMが虚偽の情報を作り出していると指摘する人もいるけど、違う。LLMは虚偽を作るんじゃなくて、ただのデタラメを言ってるんだ。大きな違いがある。AIは出力に対して気にしないし、気にする能力もない。トークンを入れたらトークンが出てくるだけ。データが完璧に記録されていても、一貫した出力を使うことには失敗する。> 次元を圧縮することは情報の損失を伴うから、現実だと思っていることと実際の間にギャップができる。虚偽は生物学的プロセスや情報保存の劣化に関係しているけど、LLMにはそれに相当するものはない。データが記録されると、ビット単位で同じように再現される。LLMの表現は不変なんだ。モデルを1000回ダウンロードして、10年間動かしてもデータは同じ。最も近いのは不良ディスクにデータを保存することだけど、それがLLMの出力がひどい理由じゃない。現在の技術で解決できる trivial な問題だよ。(RAIDやチェックサムを使うみたいに)

それは人間の失敗モードで、LLMの全体的なモードでもある。

そう呼ぶなら、LLMの虚構は極端だと思う。人間であれば、そのレベルの虚構は認知症と診断されるだろうね。だから、人間にとっては機能ではなくバグと見なされる。認知症の高スキルなソフトウェアエンジニアが、安全が重要なソフトウェアをコーディングする姿を想像してみてよ…。

でも、人間は論理的に考えられるし、学ぶこともできるからね。

人間の劣化版を作ろうとするべきじゃない。もっと良いコンパイラや百科事典を作るべきだよ。

LLMが虚偽を言うことを指摘する人もいるけど、これは人間が広く知られていることじゃないか。こういう人間に擬人化した発言は、即座に拒否するべきだと思う。怠惰で、たいてい間違ってるし、LLMの失敗を軽視するための言い訳として使われることが多い。何でも擬人化できるけど、それは常に問題を引き起こすんだ。だからその言葉が存在するんだよ。この修辞技法は「このLLMの行動は人間の行動に例えられるから、LLMは人間のようだ」という形をとって、恣意的な人間の性質や生物学の側面を引き合いに出して技術的な理由付けを正当化するための無限の推測の扉を開く。今回、君は技術用語(LLMの虚偽)と人間の記憶の虚偽の概念を意図的に混同して、それを基に虚偽が知性に内在するという主張をしている。こういう推論には多くの問題があるけど、一番明白なのは大きなカテゴリーエラーだということ。LLMの「虚偽」と人間の「虚偽」は基本的に何も共通点がなく、非常に表面的な意味でしか比較できない。だから、虚偽が知性に内在するかもしれないと示唆するのは、言葉の意味に曖昧さを生んでいるから、本当に一貫した議論ではない。

HNのトップに載ったスパイキーな球体についてのブログ記事を書いたAI研究者がいるんだけど、その元の記事はリンクしないでおくね、気を悪くするかもしれないから。で、3blue1brownがそのAI/ML研究者たちの直感を修正してるよ。 https://www.youtube.com/watch?v=fsLh-NYhOoU&t=3238s

チューリングテストを通過したと宣言するのはまだ早いと思う。コンテキストウィンドウを使い果たすまで会話を続ける必要がある。それより短いと、応答の質は限界に達する前に悪化するから。圧縮してもね。神経可塑性を数十万トークンでシミュレートするのは難しいよ。

あなたが提示するような厳密なチューリングテストに対して、多くの(あるいはほとんどの)人間も失敗すると思う。どれだけの人間が、他の誰かと100万回の「トークン」会話をして、1つのことも間違えずに完璧にやり遂げる集中力を持ってる?

これは合格/不合格の意味じゃなかったんだ。

"あなたの言う通りだね!" 一時期はテストに合格したと思ってた。でも、これらのモデルの特徴を学んで、今はほとんどの人が簡単に区別できるようになった。でも、これらのモデルは人よりももっと役に立つように、もっと明確に、もっとフレンドリーに、もっとおしゃべりにプログラムされてるから、それは公平な期待じゃないかもしれない。それでも、もしそれらを取り除いたら、二つを区別できると思う。ただ、時間がかかるかもしれないけどね。

このスレッドや他の場所で「人間もそんなミスをするよ」って言ってる人たちに質問があるんだけど、「二分脳の崩壊における意識の起源」って本を読んだことある? もしくは、少なくとも要約をざっと読んだことは? 「ああ、それは正しいと思う」って言った? 自分の意識が主に言語的な現象だと感じてる? 別に皮肉を言いたいわけじゃないんだけど、昔は知性が言語と密接に結びついているか、同じものだと思ってたし、宗教的なテキストに深い意味を見出してた(例えば「初めに言葉があった」みたいな)。ここ3年ほどのLLMの展開で、この考え方はほぼ完全に覆されたんだ。神の隙間的な最後の手段的な意味じゃなくてね。純粋に言語に基づく「知性」の出力を見て、確かに人間も似たようなミスや虚構をすることはあるけど、そこには何もないと強く感じてる。どんなに愚かな人間でも、連続性や世界観、「物体の永続性」があるんだよね…。正しい表現を見つけるのに苦労してるけど、知性には言語操作以上のものがあると思う。 (この記事には直接関係ないことは分かってるけど、著者の作品はいつも素晴らしいし、彼の自制心を尊敬してる。でも、この意見がスレッド全体に広がってるから、ここでも言ってみようかな。)

正しい表現を見つけるのに苦労してる その「魂」の概念を巡っていると思う。非コミュニケーションの障害者の中でも、私たちはまだ「生」を見ることができる理由だね。アート作品を作りたいと思ってるんだ。それは、あなたを初めての本物の知性に繋げるチャットボックスなんだけど、その知性はコミュニケーションできないものなんだ。私はそれが最も知的な存在で、魂を持っているけど、ただ返事ができないと保証するよ。知性と魂は単純に測定できる現象ではない。男は愚かなことしかできず、嘘しか言わなくても、最も知的な人間であり得るんだ。知性は内にある。

異なる古代の伝統を見てみると、言語の限界、つまり世界を理解するために重要なものを表現できないことに苦しんでいるのがわかる。仏教徒はその点を非常に分析的で明確な方法で掘り下げている。別の視点として、鯨類は人間と同じくらい意識があると考えられているが、彼らのコミュニケーションを言語として解釈しようとする試みは今のところ失敗している。彼らは人間とコミュニケーションするために簡単な言語を教えられることができるし、チンパンジーもそうだ。でも、彼らが内部で世界を処理する方法はそうではないらしい。

LLMのバンドワゴンに乗りすぎた感じがする。LLMは、人々が書いたり言ったりしたものを基にした統計的な次のトークン生成マシンなんだ。意味のある(あるいは全く意味のない)形でテキストを組み合わせる。もし、質問に対して「はい」か「いいえ」で答える超シンプルなプログラムを作ったら、ランダムな数字を生成することで、50%の確率で正しいことを言うだろう。特定のキーワードには「はい」と言うように微調整することもできるし、他のキーワードには「いいえ」と言うようにすることもできる。ハードコーディングされたパスをたくさん使えば、このAIが超人的な予測能力を持っていると思わせることができるかもしれない。今起こっているのはそんな感じだと思う。もちろん、そんなに単純ではないけど、基本的なGPTを午後のうちにコーディングすることはできるよ。

LLMについての議論には2つのタイプがあると思う。LLMが「人間」かどうかを話す人と、LLMが「役に立つ」かどうか(つまり、特定の認知タスクを人間と同じくらい上手くこなせるか)を話す人。どちらの側面も「知性」と呼ばれていて、この2つのグループはお互いを理解できないんだよね。

この議論はもっとニュアンスが必要だと思う。「LLMはまだXができないからバカだ」って考え方は良くない。ハーネスを使ったLLMは、明らかにテキストだけで解決できる論理的な問題に取り組む能力がある。LLMは画像に関してはまだそこまで行ってないけど、UIやfigmaのようなツールへのアクセスが改善されている。LLMは、これまで見たことのない問題に対して新しい創造的な解決策を提案することができないのは明らかだ。

LLMはハーネスを使うことで、テキストだけで解決できる論理的な問題に取り組むことができるみたいだね。ある程度は。ただ、具体的にどこまでが限界なのかは不明だけど、トレーニングセットに埋め込まれていない方法で問題にアプローチするのは難しいみたい。ランダムな論理問題を解決できるとは思えないな。

LLMは画像に関してはまだそこまで行ってないね。 https://genai-showdown.specr.net/image-editing そこではかなりの進展があったけど、例えばコーディングに最適なLLMが、画像編集にも最適とは限らないからね。

LLMは明らかに見たことのない問題に対して新しい創造的な解決策を提案できない。LLMは非常に役に立つけど、この発言には疑問がある。見たことのない提案をしているけど、それが人類の知識全体の中で新しいのか創造的なのかはわからない。

"LLMはまだXができないからバカだ" って言うのは気をつけよう。それはストローマン論法だよ。そんなこと言う人は知らない。Aphyrは記事の中でAIができることについて言ってるけど、彼らは「知的」としてマーケティングされてるんだよね。Aphyrが言うように、その言葉はAIが現在提供している以上のことを示唆している。彼らは推論も思考もしていないし、本当に知的ではない。記事が言うように、彼らは大きな線形代数の塊なんだ。時には、それが役に立つこともあるけどね。

「LLMなどが新しい状況や新しい規模で展開されると、仕事、政治、アート、セックス、コミュニケーション、経済にあらゆる変化が起こるだろう。」5年かけて作られた記事として、これがテーマだと思ってたのに、今のLLMがどれだけ不完全かについての長話になっちゃったね。

その代わりに、今のLLMがどれだけ不完全かについての長話になったね。これは一般の人々に叩き込む必要があるポイントだと思う。結局、これは不完全なツールではなく、あらゆる分野の問題を永遠に解決するソリューションだと売り込まれてきたから。だから、これらの企業は公共の補助金や投資を何十億ドルも必要としていて、そうでなければもっと実用的な目的に使われるはずなんだよね。

この投稿は10部構成の記事の前振りに過ぎないけど、ほとんどはまだ公開されてない(でもすぐに出るよ)。目次を見る限り、期待してたことが次の部分で詳しく説明されるみたい。

すごく簡潔にまとめてくれてありがとう。LLMの内部で実際に何が起こっているのかは、良心や主体性とは関係ないって、仲間や友達、家族に説明し続けてるんだ。AIという言葉は今、完全にオーバーロードされてるから。

AIっていう言葉がぴったりだね。機械は「知性」を持ってるし、それを人工的にやってる。数学ができる機械があるのと同じように、論理も人工的にやってる。私の人生のうちに「人工」って部分はなくなると思う。だって、実際には本当に人工的なものじゃないから(数学や論理と同じで)、ただの機械的なものなんだ。トランジスタが数学や論理をできることに誰も気にしないし、トランジスタが次のトークンを予測できることに人々が気にする必要もないと思う。

LLMの内部で実際に何が起こっているかは、意識や主体性とは関係ない 自然の脳がLLMとそんなに違うことをしていると思う根拠は何?

現在のモデルに大量のシリコンやますます大きなコーパスを投げ続けることで、人間と同等の能力が得られるかどうかはまだ不明だね。トレーニングコストやパラメータ数の大幅な増加は、リターンが減少しているみたい。もしかしたら、この効果は幻想かもしれないし。謎だね!これが可能かどうかも分からない。現在のトレーニングに使われているコーパスには、ほぼすべての既知の資料が含まれているから。もし著作権のあるコンテンツを報酬なしで使うことを違法にしたら、タスクはすごく高くつくか、コーパスが縮小することになるだろうね。モデルをもっと大きくして、パラメータを増やすことはできるけど、シリコンの能力に依存しているから、RAMの密度やGPUの並列処理に関しては限界がある。正直なところ、次の「Attention is All You Need」レベルのブレークスルーがない限り、もう限界が見えてきてる気がする。

これが可能かどうかもわからないな。今までの経緯から見ると、もしかしたらね。少なくとも、2022年/2023年に現在のバージョンに至ったのは、まさに「大量のデータを投げてみたらどうなるか見てみよう」って感じだったし、その方法はある時点まではうまくいってた。でも、トレーニング後は、ラボの違いが出てきたみたい。

高品質なトークン(mercor、turing)を作るために人を雇って、その後、データ生成プロセス(合成データ)に投入して、さらにトークンを作ってトレーニングに使ってるんだ。

新しいアイデアに取り組んでる研究者がたくさんいるから、5〜10年以内にブレイクスルーがあるかもしれないね。だって、AlexNetとAttention is All You Needの間はたった6年だったし、その後Scaling Lawsが出てきたのは3〜4年後だし。進展があまりないように見えるかもしれないけど、今はAIラボがアイデアを秘密にしてるからだと思う。億単位の価値があるアイデアがあるからね(しかも、正しい手に渡ればもっと)。もちろん、5〜10年は高いコストに頭をぶつけ続けるには長い時間だけど、その問題を解決できるかはわからないな。

現在のトレーニングに使われているコーパスは、ほぼすべての既知の資料を含んでいるって言われてるけど、これは全くの間違いだよ。みんなが当然のように思ってることだけど、デジタル化されていない既知の資料がものすごくたくさんあるし、テック企業の手元にもないんだ。

いつか書かなきゃいけない大きなエッセイがあるんだけど、今の時代と産業革命の類似点が見えて仕方ない。産業革命前は、自然界はほぼ無限に豊かだった。私たちはそれを完全に活用するほど効率的じゃなかったから、財産や共有地が曖昧でも問題なかったんだよね。みんなで森で狩りができて、なおかつ獲物が見つかるなら、「誰がその森を所有しているか」を定義して争う理由がない。だけど、機械の助けで少数の人が地球の一部を完全に枯渇させることができるようになった。誰がそれをする権利があるのか、誰がないのかを決めるために巨大な法制度を発明しなきゃいけなかった。今、私たちは本当に情報時代にいるし、デジタル領域でも似たようなことが起こると思う。もちろん、著作権や知的財産法はすでにあるけど、それは人間が他人の知的労働から利益を得ようとすることを前提に設計されてる。AIの登場で、デジタル世界の産業時代に突入した。今や一つの企業が誰かの著作権のある作品を使ってAIを訓練し、その知識から何度も利益を得ることができる。これがクリエイターと消費者の微妙なバランスを完全に崩してしまう。もしChatGPTが記事を吸い上げて、元の記事を見つけることもなくユーザーに吐き出すなら、作家はなぜオンラインに記事を載せるの?貪欲なAI企業が常にデジタルの共有地を収穫しているのに、誰が貢献するの?他人の農場に種を植える人がいると思う?今、私たちは情報革命の中で、煤けた子供の石炭採掘者がいるディケンズのロンドン時代にいるような気がする。社会や法制度が追いつくまで、かなり厳しい状況になるだろうね。

LLM研究の一つの問題は、これらの機械に「わからない」と言わせる方法だね。何かをでっち上げるんじゃなくて。正直言うと、そういう人間もいるけどね。

でも、そういう人たちが実際に仕事をしてるわけじゃないよね。

Claudeは、スランピングカンチレバー梁を支配する微分方程式について詳しく説明を始めた。でも、雪が完全に屋根に支えられていることを全く認識していなかった。誰もが空中にぶら下がっていると思ってた。物理学者ならこんな間違いはしないけど、LLMはこういうことをよくやるんだ。君は私の物理学者の友達に会うべきだよ。彼らは屋根が球形で摩擦がないと仮定するかもしれないから。