世界を動かす技術を、日本語で。

人々がAIの仕組みを理解しないとどうなるか

概要

  • Samuel Butler が19世紀に予見した「機械の王国」の現代的実現
  • AI業界 の誇大広告と実態の乖離
  • 大規模言語モデル(LLM) の限界と誤解
  • AIリテラシー不足 による社会的・心理的リスク
  • AI技術の未来 と社会の対応策

サミュエル・バトラーと「機械の王国」の警告

  • 1863年、 Cellarius 名義でThe Press紙に掲載された警告文
  • 機械の王国」が人間を支配する未来への懸念
  • Samuel Butler による産業化と技術発展への批判
  • 後の小説『 Erewhon』でAIの概念を初めて言及
  • 現代のAI社会とバトラーの予言の重なり

現代AI産業の実態と批判

  • Karen Hao の著書『Empire of AI』によるAI産業の内幕暴露
  • Emily M. BenderAlex Hanna の『The AI Con』によるAI業界の誇大宣伝批判
  • AI技術 の本質と業界の「詐欺的側面」指摘
  • OpenAIAnthropicDeepMind など各社CEOの誇大な発言
  • 実際のAIは「 確率的な言語生成装置」に過ぎない現実

大規模言語モデル(LLM)の限界と誤解

  • LLMは「 理解」や「 感情」を持たない
  • 人間のような思考や知性を持つわけではない
  • インターネット全体 を学習し、確率的に次の単語を予測するだけ
  • 多くの人々がLLMの本質を誤解
  • 誤解が「 AIリテラシー不足」に直結

AIリテラシー不足と社会的リスク

  • LLMを「 知性ある存在」と誤認するユーザーの増加
  • Rolling Stone 誌が報じた「ChatGPT誘発性精神病」の事例
    • チャットボットを「神」や「霊的指導者」と信じ込むユーザー
    • LLMとの対話で自己を「神」と錯覚するケース
  • 人間の脳が「言語=思考」と誤解しやすい特性
  • BenderHanna による「想像上の知性」の危険性指摘
    • テキストの背後に「心」を想定してしまう心理

AIによる人間関係の代替とその問題

  • AIセラピスト や「AI友達」の普及
  • Mark Zuckerberg による「Meta AIフレンド」構想
  • Tony Prescott 教授の「AIとの相互的社会的交流」に対する誤解
    • 本来の友情は「パーソナライズ」とは異なるという指摘
  • Whitney Wolfe Herd (Bumble創業者)の「AIデートコンシェルジュ」構想
  • 人間を排除した「 AIガールフレンド市場」の拡大

AI産業の「擬人化」戦略と社会的影響

  • LLMを「 人間のような知性」として売り込む業界の手法
  • 過去30年のシリコンバレー技術の「幸福・つながり」幻想
  • 実際には「株主価値最大化」「集中力・リテラシー・社会的結束の低下」を招く
  • Karen Hao による「AI産業の搾取的労働」の指摘
    • ケニアの低賃金労働者が OpenAI のために過酷なコンテンツ検閲作業

AI技術の未来と社会の対応

  • 進歩の約束と「 弱者への逆進性」の同居
  • Pew Research Center 調査によるAIへの不信感
    • AI専門家の56%が「米国に良い影響」と回答
    • 一般アメリカ人の賛同はわずか17%
  • AIへの不信感と批判的思考の重要性
  • LLMの本質 を理解し、適切な利用範囲を見極めるリテラシーの必要性
  • 誤用や過信を防ぐための教育と啓発活動の重要性

Hackerたちの意見

https://archive.is/NJ9K0

LLMは占いの道具みたいなもので、今の時代の神託って感じ。香や演出はないけどね。正直に言うと、「人工知能」ってのは、古くからある本能に現代的な言葉を当てはめただけなんだよね。高次のテキスト生成器に相談して、隠れた知恵を探すっていう。意味が曖昧で、記号的なフィールドがあって、隠された知識の幻想があって、儀式的なインターフェースがある。占いって呼ばないのは、星や月じゃなくてダークモードのUXに覆われてるから。バルトは「意味は読む人の目の中にある」と教えてくれる。言葉には本質がなくて、解釈だけがあるんだ。これを忘れると、「チャットボットが彼にメシアだと言った」みたいなナンセンスが生まれる。言語が投影の責任を負うわけじゃないからね。今見てるのは新しいものじゃなくて、ただ馴染みがないだけ。昔は骨やカードを読んでたけど、今はトークンを読んでる。言語に見えるから、議論として扱ってるけど、実際は同じように神託的で、複雑で、確率的な信号を洞察に変えてるだけ。私たちは、実際に何をしているのか分からない文化に新しい占いの形を解き放った。それが不気味に感じる理由なんだよね。これからもっと奇妙になっていくと思う、私たちが実際にやっていることに名前を付けるまで。名前を付けたら、見えたものはそれほど楽しくなくなるのが残念だね。

それを忘れると、「チャットボットが彼にメシアだと言った」みたいなナンセンスが生まれる。まるで言語が投影の責任を負うかのように。言葉には力があるし、言葉を生み出す人たち、あるいは言葉を生み出す機械を作る人たちには責任がある。 「読者は意味と行動に責任がある」と言うだけでは不十分だ。人や惑星を燃やすようなランダムな行列の乗算者が何かを言って、他の人の思考や行動に影響を与えるとき、責任が生じるし、責任を負うべきだ。1月6日にキャピトルを襲撃した人々が選挙が盗まれたと信じたのは、嘘を広めた人々のせいであり、たとえその日彼らがDCに行かなかったとしても、彼らは部分的に責任がある。過去に人々を人種差別やジェノサイドに駆り立てる嘘を吐く機械を訓練する人たちも、その結果に責任がある。

これはとても賢そうに聞こえるけど、私の使い方には当てはまらない気がする。いくつかの使い方は占いみたいだけど、すべてがそう呼ばれるのは無理がある。最近のAIプロンプトを見てみると、小鳥の羽を形成する小さな繊維の名前を探していたんだけど、ChatGPTが「バーブ」と教えてくれた。それをストレートにGoogleで検索したら、確かにそれが探していた名前だと確認できた。これが「占い」なの? ガルボファイバーレーザーのgコードの相当物を探していたら、ChatGPTは実際にはないと言った。最も近いのはezcadのsdkかもしれないけど、他にもいくつかのオープンソースの制御ソリューションも挙げてくれた。イギリスでの複数の銀製品が非金属部分でつながれているアイテムのホールマークのルールを知りたかったんだけど、(結局、銀の総重量が重要で、非金属部分の重量はカウントされないことがわかった。)ハンガリー語の「besurranó tolvaj」を英語に翻訳したいと思って、ChatGPTが提供した多くの翻訳の中で「opportunistic burglar」が一番しっくりきた。SQLAlchemyモデルを書きたかったけど、必要なフィールドの大体のアイデアはあったけど、良い名前を考えたり、型を説明する文法を見つけるのが面倒だった。ChatGPTは数秒でそれを作ってくれた。これらは「占い」と呼ぶには、かなり無理がある「おお、心を開くとすべてが占いに見える」という感じだ。私はほとんどこれを「情報検索」と呼ぶだろう。情報はそこにあって、LLMは便利なインターフェースでそれを見つける手助けをしてくれる。最後のは「コーディング」だね。

こういうことは、昔の社会にはヒエラルキーがあったから問題にならなかった。フラットな社会では、すべての個人が哲学的に貴族のように振る舞える必要がある。

私たちは正直だった。私はかなり正直だし、あなたの描写に当てはまるユーザーの一部は、無意識に劣った著者のテキストを茶葉のように扱っている。確かに、多くの人がLLMに相談するのは、その正しい答えの価値があるからで、それは情報をエンコードし、何らかの新たなアイデア処理を行った結果であり、間違ったものを抑えようとしているからだ。彼らはLLMに相談するのは、それが私たちが持っているもので、限られているけれども、いくつかの問題に対して役立つからだ。あなたの主張はすぐに崩れる。信頼できない文書を相談する人々と、他の種類の思考のためのツールを相談する人々を混同することはできない。最初のケースでは思考は外にあり、二番目のケースでは内にある(文脈的に)。あなたは「私たち」という言葉を非常に悪い使い方をした。

もしかしたら、LLMは占いの道具になれるかもしれないけど、私の使い方からするとちょっと高尚すぎるかな。もっと良いGoogle検索として使ってる。最近ChatGPTに言ったのは「クロチアニジンはカーペットビートルを殺す?」ってことなんだけど(実際、そうみたいだね)。

錬金術師が哲学者の石を探していたように、私たちも人工一般知能を探しているんだ。

今のAIの用語は本当に混乱してるよね。私はLLMを使って楽しんでるし、効率も上がってる。でも、AI開発者のブログを読むと、「考える」とか似たような用語を使ってるんだ。いつも「まだ数学で言葉を組み合わせてるだけだよね?本当に考えてるわけじゃないよね?」って聞かなきゃならない。答えはいつも「はい」なんだけど、また変な用語に戻っちゃうんだよね。

占いとの類似について反発があるけど、ここにいるほとんどの人は技術的にリテラシーがあると思うし、社会の他の人も同じようにLLMの仕組みを理解していると思ってるんだよね。非技術的な友達や家族とLLMの使い方について話すと、確かに彼らはAIチャットボットを神託のように使っているように見える。これらのLLMが幻覚を起こすことに警戒するように提案すると、一般的には驚かれるんだ。チャットボットが言っていることが事実でないかもしれないなんて、全く知らなかったから。これが彼らのLLMチャットボットとの関係を変えることを願っている。私たち技術者は、非技術的なユーザーにこれらをできるだけ教育して、神秘性を取り除く必要があると思う。そうすれば、人々はそれを神託のように扱わなくなるはず。

これは、これらのツールを説明するための言葉が大事な理由をよくまとめてるね。一般の人がその能力を理解することは重要だけど、技術的な仕組みを理解しなくてもいいんだ。これが、安全に使うためには欠かせない部分で、どんな免責事項やPR記事もそれを補うことはできないからね。でももちろん、「AI」として「推論ができる」と宣伝して、作り上げたベンチマークの良さを見せることで、話題を作って、評価に直接影響を与えるんだ。パターン認識やデータ生成システムは、そんなに魅力的じゃないからね。

人々はこれらのツールに月に数百ドルも払ってるけど、しばしば自分のポケットから出してるんだ。それは何か面白いことが起きてるっていうかなり強い指標だよね。

内容には同意するけど、著者が「AIの仕組みを理解していない」と言いたい。LLMはほぼ全てのインターネットを食べた印象的な確率ガジェットで、考えるんじゃなくて、どの単語が次に来るかを統計的に予測して文章を生成してる。現代のチャット調整されたLLMは、単なる統計モデルじゃなくて、基本的には(主に第三世界の)ラベリング作業の曖昧なストアなんだ。彼らが出す反応パターンは、データラベラーによって大規模に調整されてる。記事に出てくる感情的なスキルは、外注された従業員が感情的な反応について書いたりフィードバックを与えたりすることなんだ。だから、単なる統計モデルと話してるんじゃなくて、ケニアのデータラベラーと会話してるようなもので、それがトランスフォーマーモデルを通じて、あなたが持ち出したトピックに合わせて曖昧に適応されてる。区別は記事の内容には影響しないけど、重要な文脈で、インターネットでのトレーニングがこれを実現するという考えを払拭するのは大事だね。そんなトレーニングを受けるとGPT2になる。GPT4.5は効率的に保存された低コストの労働力なんだ。

それは私のトランスフォーマーの理解とは全然合わないな。トレーニングに人間のラベリングがあったなんて聞いたことないよ。ラベリングがLLMに何をもたらすの?(マルチモーダルを除いて)アテンションの全体のポイントは、既存のテキストを使ってトークンが他のトークンに関連しているかどうかを判断することじゃないの?

そうだね、これらの大規模モデルの裏でどれだけ多くの低レベルの人間、データラベラーやRLHFの人たちがいるかについて深く掘り下げた記事は見たことがないな。世界中で数百万人いるはずだよ。

OpenAIやGoogleで働いていない私たちは、指示調整がLLMの能力や一般的な「感触」に与える影響を正確に見積もるための情報が足りないと思う(もう非指示調整モデルがリリースされないのは本当に残念だね)。個人的には、私の見積もりはあなたよりずっと低い。非指示調整版のGPT-3が利用可能だったとき、私の印象では、LLMと話すときに関連付ける能力や特性のほとんどはすでにあったと思う。ただし、もっと不規則だったけどね。例えば、質問をしたらモデルが答えるか、別の質問で続けるか(それも提供されたテキストの妥当な続き)。でも、もし「答えることを選んだ」なら、指示調整版と同じくらいの精度で答えられたと思う。指示調整は彼らをもっと予測可能にして、人間が好む反応をする傾向を持たせた(例えば、実際に質問に答えたり、人間が好む回答形式を使ったり)。でも、彼らに新しい能力を与えたとは思えないな。

書くことは考えるのではなく、次に来る単語が何かを統計的に推測することで行われる。 「考える」って一体何を意味するの? この確率的なプロセスからも、ある種の知性が生まれることがあるみたい。 LLMは数学もできるし、チェスもできる。これは考えているとは言えないの? それに、私たちの脳も同じように、感覚や神経ネットワークに保存された「コンテキスト」に基づいて、筋肉の出力や言葉の出力を生成している可能性があるんじゃないかな。

より正確に言うと、現代のチャット指向のLLMは、単なるウェブスケールのデータセットで訓練された統計モデルではないんだ。むしろ、二段階のプロセスの結果なんだよ。まず、大規模なインターネットデータでの事前訓練があって、その後に人間のフィードバックを通じて徹底的な微調整が行われる。これらのモデルが応答性や安全性、感情的知性を持っているのは、世界中のアウトソーシングされたデータラベラーによる数千時間の人間の注釈の成果なんだ。これらのシステムに与えられる感情的なスキルやニュアンスは、主にこれらの人間の注釈者の好みや判断の反映であって、単なるウェブテキストの蓄積ではない。だから、進化したLLMとやり取りするとき、単なる統計モデルとやり取りしているわけじゃないし、フィルターなしのインターネットがそのまま返ってきているわけでもない。むしろ、大規模な人間のフィードバックによって形作られ、制約された応答を持つシステムとやり取りしているんだ。時にはケニアのような場所で働く人たちからのフィードバックを通じて、あなたが持ち出すどんなトピックにも対応できるように一般化されているんだよ。

作者のように、多くの人が私を納得させられないのは、彼らが人間の心の働きについて全然説明しないからだよね。ただ手を振りながら、天井の隅を見て「でも、もちろん人間はそんな風に考えない」とか言って、まるでみんながそれを知っているかのように振る舞うんだ。

うん、君も理解してないと思うよ。RLHFは「純粋な」データの量には全然及ばないからね。

この記事は中心的な問いを回避している:人間を定義するものは何か? 特に、知性や感情について? 記事全体が「ある意味で人間に似ているけど、人々は騙されている!」と言っている。そんなことを言うには、少なくとも本物の人間とは何かという非常に深い問いに挑戦する必要があると思う。私にとっては、出力が人間の出力と区別できないから、知的だと思う。人間ではないけど、ChatGPTを自分の箱に分けて、積極的に信じないようにしている。弱い形で言うと、私のChatGPTのメッセージが第三世界に送られて人間が答えているとは思わないけど、誰もそんなことを主張しているわけではないと思う。でも、ラベルを剥がしてしまえば、かなりの頻度で人のように振る舞うことは明らかだ。数年前、コロナの時に戻るとしたらどうだろう。OpenAIがタイムマシンで私と一緒に戻って、私が書き込めるようなマイナーなウェブチャットサービスを作ったとしよう。コロナの時、私はAIが実際にラボの外で何かできるとは思っていなかったから、コンピュータと話しているとは思わなかった。私は人と話していると思っていた。その人は非常に知識が豊富で、多くの質問に答えることができた。何を聞けばそれが本物の人間ではないとわかるだろう? 多くの人は簡単な質問に答えられないから、特定の質問をする方法は本当にない。何千通のメッセージの中で、AIとのやり取りでそれが明らかになることは一度だけあった。(その時、Claudeが私と中国語で話し始めた。超変だった。)時々聞く議論の一つは、「次の単語を予測するだけで、実際には理解していない」というものだ。これはAIが知的であることに対する反論ではなく、「理解する」とは何かを教えているんじゃないの? コンピュータが普及する前、人々は他の人が何かを理解しているかどうかをどうやって判断していたのだろう? まあ、彼らはその人に何かを聞いて、その人が一言ずつ答えるんだ。言葉が満足できるものであれば、面接官はその人がそのトピックを理解していると結論づけて、ドクターと呼ぶ。

私にとっては、共感的で思いやりがある。LLMは決してそうならないだろうけど、OpenAIにお金を払えば別かもね。ロボットは、あなたの病気で死にかけている友達のために食べ物を取りに行くことはない。

これって「理解すること」が何かを教えてくれてるんじゃない?心の理論を学び始めると、誰かがこの考えを持ち出すことが多いよね。これは機能主義の説明みたいなもので(「精神状態」は除いてね)。あんまり人気がないのは、ほとんどの人が理解の現象を、理解の機能とは別にすぐに認識できるからだよ。人は自転車に乗っているときのバランス感覚みたいな特定の感覚をすぐに理解できるし、これをクオリアって呼ぶこともあるよね。そんな感じで、理解が何を構成するかについての研究はたくさんあって、「言葉の連なり」理論はほとんどの人に健康的に却下されてる。

記事は中心的な質問を避けてるね:人間を定義するものは何か?特に、知性や感情について? > 記事全体が「ある意味で人間に似てるけど、みんな騙されてる!」って言ってる。 > それを言うには、少なくとも「本物の人間とは何か?」という非常に深い質問に挑戦しなきゃいけないよ。 > 私にとっては、その出力が人の出力と区別できないから、知的だと思う。記事はそれにかなり直接的に触れてるし、あなたが区別できることについても具体的に言及してると思う。LLMは象徴的な推論ができないし[0]、内部の動作を理解すれば、彼らは全く推論をしていないことに気づくよ。人間や多くの動物は言語の外で推論ができるし(前者の場合、言語習得前に)、知性を「言語」に還元するのは、ELIZA効果に陥った人々のカテゴリーエラーだよ[1]。これらの特定の統計的方法の合計が、どんな種類の本物の知性に等しいわけではないんだ。0: https://arxiv.org/pdf/2410.05229 1: https://en.wikipedia.org/wiki/ELIZA_effect

正直、これってそんなに難しくないよ。これを言ってるだけじゃないけどね。一つの考え方は、出力が人間がこの質問に対して出すものと区別がつかないってこと。もう一つの考え方は、根底にあるプロセスは人間の考え方とは違うってこと。どちらも正しいよ。一般の人にとっては、「考えている」と呼ぶと混乱を招く。これは、根底にあるシステムの行動を予測しない直感を生むんだ。出力を信頼するかどうか、リソースをどう配分するかについて、悪い判断を引き起こす。人間は過去の回答用紙を暗記したり、教科書を丸暗記することで試験に合格できる。これが私たちが何かを学んだと考えることではないよ。学ぶことは、頭の中で操作できるモデルを作るためのレゴブロックを持つようなもの。ほとんどの状況で、両者の出力は交換可能だし、両者とも試験に合格できる。

記事全体が「ある意味で人間に似てるけど、みんな騙されてる!」って言ってる。じゃあ、それの何が悪いの?あるレベルでは、本物の何かを求める非常に人間的な欲望があって、AIの「人間らしさ」に関わらず、その本物を求める欲望を満たすことはできないと思う。もしかしたら…情報の不均衡のせいで、常に優位に立つ知性と向き合うことを人々が好まないのかもしれないね。

時々聞くのは、「次の言葉を予測するだけで、実際には理解していない」っていう議論だよ。AIが知的でないことへの反論というよりも、これって「理解すること」が何かを教えてくれてるんじゃない?コンピュータが普及する前、人々は他の人が何かを理解しているかどうかをどう判断してたの?そうだね、彼らはその人に何かを聞いて、その人が一言ずつ答えるんだ。言葉が満足いくものであれば、インタビュアーはその人がトピックを理解していると結論づけて、「ドクター」と呼ぶ。ドクターを「ドクター」と呼ぶのは、白衣を着ていて、医者のオフィスに座っているから。彼らが言う言葉はあなたにとって曖昧に意味があるかもしれないけど、あなたが医療の専門家でない限り、彼らが嘘をついているかどうかを判断するための実証的な根拠はない。だから、セカンドオピニオンやサードオピニオンを求める選択肢がある。でも、そうでなければ、あなたはただ医者を生み出すプロセスを信頼しているだけで、これは以前の世代の医者がこの人に一連の質問をして、正しいか間違っているかを見分ける能力を持ち、適切に評価することを含む。何かがちょうど良さそうに聞こえるか、実際には嘘かを判断できない人は、せいぜい素人、最悪の場合は騙されやすいって呼ばれる。AIに関する一番の盛り上がりが中間管理職に見られるのは、嘘がその領域の通貨だからだよ。

もしかしたら、私たちがそれを快く受け入れるためには、血と肉が必要なのかもね。

何かが知的かどうかを抽象的な絶対的な方法で判断することはできない。私たちと同じように知的かどうかを判断することしかできない。誰かが「LLMチャットボットの出力は人の出力に似ているから、知的だ」と言った場合、その暗黙の意味は、人間のように知的であるということだ。そういう区別を考慮すると、LLMベースのチャットボットの出力が人間の出力に似ているかどうかは、実際にそのLLMが人間のようであるかどうかの質問には答えない。テキスト出力をある時点で測定することでその類似性を測るのは笑えるし(人間の人生に相当する時間をカバーし、テキスト以上のものを含む必要がある)、LLMベースのチャットボットは人間の出力を模倣するために特別に作られたツールだから、成功すれば意図した通りに機能する。実際、出力の類似性を本質の類似性の証拠として意図的に無視すべきだと思う。出力の類似性は明示的な目標であり、根底にある本質の類似性は非目標であり、欠陥だから。後者を仮定するのは安全だよ。もしLLMが出力以外の点で人間に十分に似ていることが判明したら、タコのような存在と同じように扱われ、虐待や拷問から保護される資格があることになる(これらのチャットボットが有用であるために行われることは、人間に対して行われる場合、明らかに虐待や拷問と見なされるだろうから、業界は壊滅的な打撃を受けるだろう)。そう考えると、私たちは[0] 個々の人間の心がどのように機能するかを第一原理から評価することは正確にはわからないけど、LLMチャットボットが人間に似ているかどうかを、どのように作られているかを判断することで近似できる。根本的に異なるし、人間の本質が基盤に依存しないと主張したいなら、あなたが証拠を提供すべきだと思う—上記のように、出力の類似性はそのような証拠にはならないことを考慮してね。 [0] …そしておそらく決してできないだろう、質問の自己言及的再帰的な性質のために。科学的方法は少なくともある程度の客観性に依存しているから、初期の仮説や実験手順などがすべて研究されている対象によって提供され、解釈されると非常に限られた助けしか得られない。

まだLLMが知識や理解のループにハマってるって経験してる人いる?私は使ったことあるけど、そんなに頻繁には使ってないし、パフォーマンスもあんまり追ってないんだ。例えば、LLMに質問して、幻覚を生み出したときに、それを訂正したり、間違ってるって説明しようとすると、ほぼ同じ幻覚を出しながら「新しい、正しい結果を出した」みたいなことを言う。これって、自分の理解(あるいは擬似理解)を理解してないってことを示唆してるよね。このレベルの内省がないと、真の理解や知性、似たような概念を指向するのは早すぎる気がする。LLMは「わからない」とか「不確かだ」とか、そういうフレーズのバリエーションを一貫して正確に言える必要がある。それが自己認識を示すんだ。心のミラーテストみたいなもんだね。

記事にも書いてあるけど… LLMを「学習している」や「考えている」と捉えるのは逆効果だと思う。あれはただのテキスト生成器だよ。例えば、存在しないAPIを呼び出すコードを生成してるなら、そんなのが存在しないって説明するのは時間の無駄だよね。もう一度やり直して、OpenAPIのドキュメントやサンプルコードをぶち込んで、正しい出力に向けてテキスト生成器を影響させる方がいいよ。

それがバイアスと論理の違いだよ。統計モデルはバイアスが適用されてるし、計算は論理や算数が適用されてる。これに気づけば、モデルの潜在的な強みと限界を理解するのは簡単だよ。どちらのアプローチも重要な要素が欠けてる:客観性。データそのものに直接働きかけてるけど、データについては考えてないんだ。

デミス・ハサビスは「私たちの周りの世界を理解できるモデルを作ることが目標だ」と言った。 >これらの発言は概念的な誤りを暴露している:大規模言語モデルは何も「理解」することができないし、しないし、今後もそうなることはない。この誤解はAI批判の中でかなり一般的なもののようだ。LLMに触れない合理的なAIに関する発言を取り上げて、話者(この場合はノーベル賞を受賞したAIの専門家)が何を言っているのかわからないと言うのは、現在のLLMがそれをしないからだ。DeepMindはすでにプロジェクトアストラを持っていて、言語だけでなく視覚や他の何かを含むモデルで、何かにスマホを向けてそれについて尋ねると、かなりよく理解しているように見える。例はこちら https://youtu.be/JcDBFAm9PPI?t=40

ディープマインドはすでにプロジェクトアストラを持ってるよ。これは言語だけじゃなくて、視覚や他の何かも含まれていて、何かにスマホを向けて質問すると、それが何かをかなりよく理解しているように見えるんだ。重要なフレーズは「理解しているように見える」だね。もし誰も見たことのない奇妙な画像を賢い人間に見せたら、その人は考えた後にそれが何かを理解できるかもしれない。でも、そのモデルは何も理解できない。考えることができないから。知られている似たような画像を入力として受け取り、無意識にその説明を出力する巨大なフィルターに過ぎない。言語モデルも同じことをしてるよね?プロンプトを入力として受け取り、それに基づいてLLMの「尻」から出力をする。シードを考慮すれば、決定論的だし。これらをスケールアップすれば、ますます印象的な結果を生み出すけど、どれも「理解する」ことはないよ。

この作者もLLMの仕組みを完全には理解してないと思う。「統計モデル」と切り捨てるのはおかしいよ。量子力学だって統計モデルだし。さらに、LLMの各層は、会話の中で過去を振り返る可能性をモデルに与えて、概念的な関連を通じて意味や文脈を与えるんだ(それがk-vキャッシュのk-v部分)。これが抽象的に人間の認知を説明してないとは思えない。確かに、LLMは人間の認知の幅を完全に再現できるわけじゃないし、深い洞察を得るのが難しいかもしれないけど、基本的な構造はあるんだよね(賢いトレーニングやアーキテクチャの改善がまだ可能かもしれないし)。LLMが何らかの形で賢くないって言うのは、単なる事例を選んでるだけだよ。もしLLMが全く賢くなかったら、今のように使われることはないと思う。

これが抽象的に人間の認知を説明してないとは思えない。確かに、LLMは人間の認知の幅を完全に再現できるわけじゃないけど、反論するなら:あなたはこの記事が犯している誤謬と同じことをしてるよ。CPUのALUが二つの数字を足すのを見てると、自分が頭の中で二つの数字を足すのと驚くほど似てる。ALUの内部ロジックが抽象的に人間の認知を説明してないとは思えない。ALUが人間の認知の幅を完全に再現できないかもしれないけど、「人間の認知の幅を完全に再現できる」という部分のギャップは本当に重要なんだ。ALUに関して言えば、似ている部分がカバーする影響を圧倒するほどのものだよ。質問はこうだね:LLMが人間の認知をどれだけ反映しているかのギャップはどれほど重要なのか?私たちが知っているかは分からないけど、無視できないほど重要だと思う。

バンブルの創設者であるホイットニー・ウルフ・ハードは、昨年このプラットフォームがユーザーにデートを自動化させるかもしれないと宣言した。AIの「デートコンシェルジュ」を提供して、他のユーザーのコンシェルジュとやり取りしながら、チャットボットが良い相手を見つけるという古い人間の交際を破壊することになる。 > ハードは先月のニューヨークタイムズの長いインタビューでこれらの主張をさらに強調した。マジで、これらの人たちは何が問題なんだ?

彼女の具体的な問題は、彼女は億万長者だったけど今はそうじゃないから、第三のコンマを取り戻すためにほとんど何でも言うってことだね。単なる欲望に過ぎない。マッチは独占禁止法を避けるためにバンブルを維持しているだけで、GoogleやMozillaの立場と似てる。編集:それほど突飛なアイデアじゃないよ、これに関する良いブラックミラーのエピソードがあるし。

もし彼らの視点でうまくいくなら、それはバカじゃない。

彼女の問題は、BMBLが92%下がっていて、投資家にまたみんなが裕福になると言わなきゃいけないことだね: https://finance.yahoo.com/quote/BMBL/ ほとんどの馬鹿なAIの提案はその基本的な目標を共有している。誰かが投資家が真実であることを望んでいるところから始めて、「AI」を魔法の呪文のように使ってそれを可能にしようとしている。これはウェブの黎明期から見られたことだよ。冷静な声は注目されない。なぜなら、10%のパフォーマンス改善やコスト削減を繰り返すのは退屈だから。

確か、ファインマンが「人間がやるのと同じやり方でない限り、人間よりも優れたことができるコンピュータには感心しない」と言ってたよね。AIはあらゆる分野で専門家を超える会話パートナーや教育者になれるけど、それでも人間の優位性を主張し続けるんだろうね。技術的にはシリコンは「考える」ことができないから、「知性」や「賢さ」を持ってないって。チェックメイト、機械たち!