世界を動かす技術を、日本語で。

言語モデルが幻覚を引き起こす理由

概要

  • OpenAI はAIの 幻覚(hallucination) 問題に取り組み中
  • 幻覚とは、 言語モデル が自信満々に誤った情報を出す現象
  • 現在の 評価方法 が「推測」を促し、謙虚さを評価しない点が原因
  • 解決策は「 自信過剰な誤答」を厳しく評価し、「不確実性表現」を部分的に評価すること
  • 最新モデルでは幻覚率が下がっているが、完全解決には至っていない

OpenAIにおける幻覚(hallucination)問題

  • OpenAI はAIシステムの 有用性と信頼性 向上を目指す
  • 言語モデルが進化しても、 幻覚 問題は依然として解決困難
  • 幻覚とは、 モデルが本当でない答えを自信満々に生成 する現象
  • ChatGPTやGPT-5 でも幻覚は減少傾向だが、完全には消えていない
  • 全ての大規模言語モデルに共通する 根本的課題

幻覚とは何か

  • 幻覚: もっともらしいが誤った内容 を生成する現象
  • シンプルな質問でも 予想外の誤答 が現れる
    • 例:著者のPhD論文タイトルや誕生日を複数回誤答
  • 正答・誤答・無答(abstention) の3分類で評価可能

現在の評価方法の問題点

  • 現行の評価法は「 推測」を促進し、「 不確実性の表明」を評価しない
  • 正答率のみを重視することで、 誤答(幻覚) の発生率が上昇
  • 例:分からない場合でも「I don't know」より ランダム推測 が高得点
  • 正答率重視のスコアボード がモデルの推測傾向を助長
  • OpenAIの価値観 では、誤った自信よりも「謙虚な無答」を重視

モデル別評価例

  • o4-mini :正答率24%、誤答率75%、無答率1%
  • gpt-5-thinking-mini :正答率22%、誤答率26%、無答率52%
  • o4-mini は正答率が僅かに高いが、 誤答率が圧倒的に高い
  • gpt-5-thinking-mini は「無答」を多用し、誤答率を大幅低減

幻覚発生の根本原因

  • 言語モデルの 事前学習 は「次の単語予測」が中心
  • 「真偽ラベル」なしで、 自然な言語パターン のみ学習
  • 低頻度事実 (例:誕生日)はパターンから予測不可能
  • スケール拡大で「スペルミス」等は減るが、「事実誤認」は残存

幻覚対策と今後の課題

  • 自信過剰な誤答にペナルティ不確実性表現に部分点 が有効
  • この考えは新しくなく、 一部試験では既に導入
  • 主要な評価指標自体を 「謙虚さ」も評価する形へ見直し が必要
  • 評価法の抜本的改革が、 幻覚低減技術の普及 を後押し

幻覚に関する誤解と事実

  • 正答率100%なら幻覚ゼロ」→現実は不可能、答えられない質問も存在
  • 幻覚は避けられない」→無答を選択すれば回避可能
  • 大規模モデルのみ幻覚回避可能」→小規模モデルでも限界認識は容易
  • 幻覚は不可解なバグ」→統計的な仕組みで発生・評価で強化される現象
  • 良い幻覚評価指標だけで十分」→全体の評価指標見直しが不可欠

今後の展望

  • 最新モデル は幻覚率が低下傾向
  • 自信過剰な誤答の更なる削減 に向けて継続的に研究開発
  • 評価方法の刷新 が、より信頼性の高いAI実現の鍵

Hackerたちの意見

これは選択肢テストのように考えてみて。答えがわからないときに適当に推測すると、運が良ければ正解するかもしれない。何も書かないと確実にゼロ点だよね。同じように、モデルが正確さだけで評価されると、正確に答えた割合が求められるから、「わからない」と言うよりも推測することが奨励される。私には、これはアメリカ的な選択肢テストの考え方に見える。他の一般的な選択肢テストの評価方法としては、 1. テストを受ける人がN個の選択肢の中で正しいのが1つだけだとわかっている場合: 1.1 正解にはN-1ポイント、間違いには-1ポイントを与える。これで、テストを受ける人がランダムに答えた場合、期待値として0ポイントになる。 1.2 Nが3以上の場合は、もっと厳しい方法:正解には1ポイント、間違いには-1ポイントを与える。正しい答えがあるときだけ答えることを学ぶべきだよ(N=2の場合、評価は1.1と同じ)。 2. 複数の正解があり得る場合は、各項目を「はい」か「いいえ」の選択肢に変える(答えない選択肢もあり)。正しい選択肢には1ポイント、間違いには-1ポイントを与える(つまり1.1のように)。

SAT、アメリカの大学入試試験は、昔は間違った答えに対してポイントを引いて、答えがない場合は0ポイントだったと思う。確か、正解には+1ポイント、答えがない場合は0ポイント、間違いには-1/4ポイントだったはず。

これはテキストに書かれている通りだね: > このアイデアは新しいものではない。いくつかの標準化されたテストでは、間違った答えに対する負のマークや、盲目的な推測を抑制するために質問を空白にした場合の部分点を長い間使用している。

これは本質的に間違っていると思う。部分的に間違っているとも言えるけど。LLMが統計的に有意な答えがないと言えないように訓練されていないから、幻覚を起こすのは合理的だ。でも、これらのシステムには正しいか間違っているかの知識はない。すべてが統計だから、OpenAIが説明していることは幻覚を減らすための合理的な方法に聞こえるけど、それを完全に排除する方法でもないし、根本的な原因でもない。

LLMが統計的に有意な答えがないと言えないように訓練されていないから、幻覚を起こすのは合理的だ。実際のスケールモデルのパラメータを直感的に説明している人は見たことがないけど、たぶんそれはすべて千次元のナンセンスだからだろう。統計も面白いもので、ほとんどの人はトレンドラインが常にうまく外挿されるわけではないことを見たことがあると思う。OpenAIは、もっとパラメータを追加して訓練を良くすればすべての問題が解決すると思い込んでいるように見える。手を振るように言うと、スプレッドシートで曲線フィットする際に多くの次数を追加するようなものだ。十分なパラメータがあれば、どんなデータセットにも完璧にフィットできる。でも、それはトレーニングデータとは異なる新しい入力に出くわすまでうまくいく。

あなたの中に「正しい vs 間違い」の知識はあるの?もし「ない」なら、それなしでも一般知能に到達できるってことだよね。もし「ある」なら、LLMがその知識を詰め込むことができない理由はないと思う。完璧になるかって?ハハハ、無理だね。でも、「十分良い」状態には達成できる理由は見当たらない。

彼らはこの問題に最後の方で少し触れているね。 > 「無効な例が全くないと、有効な発言と無効な発言を区別するのは二重に難しい。でも、ラベルがあっても、いくつかのエラーは避けられない。なぜかというと、もっとシンプルな例えを考えてみて。画像認識では、何百万もの猫と犬の写真が「猫」や「犬」とラベル付けされていれば、アルゴリズムはそれを信頼性高く分類できるようになる。でも、代わりにペットの誕生日でラベル付けしたらどうなる?誕生日は基本的にランダムだから、このタスクはどんなにアルゴリズムが進んでも常にエラーを生むことになる。> 同じ原則が事前学習にも当てはまる。スペルや括弧は一貫したパターンに従っているから、そこにエラーはスケールと共に消えていく。でも、ペットの誕生日みたいな恣意的な低頻度の事実は、パターンだけでは予測できないから、幻覚を引き起こすことになる。私たちの分析は、次の単語予測からどんな種類の幻覚が生じるべきかを説明している。理想的には、事前学習の後のさらなるステージでそれらを取り除くべきだけど、前のセクションで説明した理由から、完全には成功していない。」

正しいことと間違ったことの知識はある。それが損失というもので、質問には多くの可能な答えがあることが多い。これがRLVRが機能する理由でもある。正しい答えは一つだけで、LLMはこれをかなりうまく学習するけど、まだ完璧ではない(今のところ)。

幻覚を起こすのは、定義が曖昧な問題で、2つの対立するユースケースがあるからだ。1. 物語の最初の2行を教えたら、LLMに物語を完成させてほしい。これは幻覚を必要とする。なぜなら、物語を作り上げなければならないから。物語はオリジナルでなければならない。2. 質問をしたら、事実で返答してほしい。作り話はしてほしくない。LMは元々(1)のために設計されていた。研究者たちは(2)は手の届かないものだと思っていた。でも、根本的な変更なしにLMが(2)を少しできることがわかってから、状況は改善されたけど、幻覚が消えたり制御されたりするところまでは至っていない。

確かに - レベッカ・パーソンズが言うように、LLMができることは幻覚を起こすことだけだ。ユーザーはその幻覚の中で役に立つものもあれば、そうでないものもある。

これは明確に定義されていない問題だとは思わないな。別々のモデルを設計して、これら二つのタスクで優れた結果を出すことができるから。例えば、「事実に基づく」LLMの場合、出力が検証可能な発言なら正しいべきだ。そうでなければ「幻覚」ってことになる。でも、LLMは全てを知っているわけじゃないから、自分の不確実性をうまく表現して、低い自信で確定的な発言を避けるのがいいアプローチだと思う。

本質的に定義が曖昧だとは思わないな。文脈がフィクションが求められているかどうかを教えてくれるから。AIチャットボットにとって、デフォルトはフィクションであるべきじゃない。事前学習中は、モデルがこれを判断するのに十分な情報を持っていないのは事実だし、自分が知っていることと作り上げていることを区別することもできない。この高次の区別は、後から出てくるもので、もし出てくるとしてもね。最近の「悪のベクトル」を発見した研究は、高次の区別の一例だ。

記事を読んだ?君は一般的な話に逸れて、ネットでよく見るLLMについての同じ話を繰り返してるだけだよ。君がLLMが幻覚を起こす理由について独自の(でも一般的な)意見を持っているのは明らかだけど、それが記事とどう関係しているの?君の意見がまるで最終的な意見のようにポンと出されたけど、それが記事の意見をどう覆すの?正直、話がずれてる気がする。

これは幻覚を必要とする。なぜなら、物事を作り上げなければならないからだ。物語はオリジナルでなければならない。物語がオリジナルなら、それは幻覚なのか?「この有名な詩の残りは何?」と「詩を作ろう」というのは違うよね。

ウィトゲンシュタインの「言語ゲーム」の観点から考えると、問題は「単純に」この二つの全く異なる言語ゲームを区別して、それに応じて行動することだと言えるかもしれない。

あなたが求めたことに基づいてそのモードを選ばせるのは、全く不明確ではないよ。でも、事実に関する質問のケースに限定したとしても、この記事では特定の方法でトレーニングすると幻覚が生じる理由と、それを減らすためのトレーニング方法の変更について話している。ここにある他の多くの反応と同じように、あなたの否定は記事の内容には全く触れていないし、タイトルだけを批判しているだけだね。

「ハルシネーション」という言葉は、実際を誤解させるよね。LLMは文脈に続く可能性の高いトークンを予測するんだ。そして、間違った予測をすることもある。だからLLMは予測の精度が完璧ではない。予測が間違っていると、人々は「ハルシネートしている」と言う。予測天気モデルが完璧に正確じゃないことを誰も疑問に思わないのは、予測が間違うことがあるのは当然だから。マーケティングや宣伝は、LLMを人間の思考と同等の「論理的な合理的思考者」として売り込もうとしてきた。実際に考えている人間は、自分が何かをでっち上げていることを知っている。だから、もし人間が明らかに間違ったことを真実だと信じているなら、それはハルシネーションを起こしているからだと思う。彼らの思考が間違っているわけじゃなくて、現実を見失っているだけ。私たちはLLMを擬人化しすぎて、なんでハルシネーションを起こすのか診断できるかのように考えてしまっている。でも、擬人化をやめて、予測モデルとしての本来の性質に戻れば、予測が間違うことがあるのは驚くべき結果じゃないよ。

OpenAIが「幻覚」の意味を明確にして、例を挙げて、対処法を示しているのはいいね。投稿自体は画期的ではないけど、幻覚についての話し方のトーンを設定するのに役立ってる。ホットテイクで気になるのは、「モデルがすることは幻覚だけだ」という主張。これだと区別が完全に崩れちゃう。確かにモデルは次のトークンを予測してるけど、それが全ての出力が幻覚だってことにはならない。もしそれが本当なら、その用語を持つ意味もなくなるし、スケールやトレーニング、ファインチューニングの違いで、あるモデルは他のモデルよりも幻覚を起こしにくいって事実を無視してることになる。だから、慎重な定義が大事なんだ。全ての生成が幻覚ではないし、良い定義があれば本当の違いについて話せるようになる。

ここには完全に同意するよ。この同じ考えは「知る」「理解する」「概念化する」という言葉にも当てはまるべきだし、「一般化」「記憶する」「分布外」も、理解しがたい大規模データセットで訓練されたシステムを扱うときには慎重に考慮すべきだ。これらについて議論を始める前に、適切な定義とモデルを確立する必要がある。そうしないと、ただ時間を無駄にするだけだよ。

ホットテイクで気になるのは、「モデルがすることはすべて幻覚だ」という主張だ。それは区別を完全に崩してしまう。それは「オープン」AIにとって問題だよ。なぜなら、彼らは製品を売りたいからだし、LLMが超知能にスケールするだろうと主張したいからだ。他の人には関係ないけどね。「悪い」幻覚はさまざまな形で現れるし、この記事で説明されているのもその一つだ。すべてが完全な不確実性から来るわけじゃない。LLMがライブラリ内の関数を幻覚していたり、複雑な記事を要約する際に因果関係を逆転させたりするケースもある。こういうことは、SOTAモデルでも常に起こっている。モデルが不確実性に弱いから起こるわけじゃなくて、知識の不確実性とは関係ないと思う。特に、テキスト内の因果関係を誤解するような発言をすることは、アーキテクチャの限界を明確に示していると思う。

これには二つの視点がある:- LLMの研究/エンジニアリングの観点から見ると、すべてのLLM生成が幻覚だと言うのはあまり役に立たない。問題の領域に対して意味がない。- AIの研究/エンジニアリング全般(LLMに特化しない)から見ると、第二の意味で幻覚に依存しないアーキテクチャを考えるのは有用かもしれない。

もし違うって言い張るなら、幻覚とそうじゃないものを区別する論理的で主観的じゃない方法を一つ見つけてみてよ。出力を見て「これは明らかに間違ってる」って決めるのはカウントしないからね。雰囲気が全然ダメ。

この論文には誰も言及していない深刻な誤りがある:モデルのヘッドは幻覚を起こさない。サンプラーがそうするんだ。もしLLMにxがいつ生まれたかを尋ねて、知らなかったら、実際のモデル出力を見てみて。これはトークンの確率分布だ。IDKは1月1日から12月31日までの均一な確率としてきれいに表現される。もしそれに対して選択肢のある質問をして、知らなかったら、こう言うだろう:25% A、25% B、25% C、25% D。これは正確に、そして正しく「正しい答え」だ。モデルは自分が知らないことを認めている。何も幻覚を起こしていない。実際には、この情報を引き出すためには、ランダムなサンプラーよりも賢い何かが必要なんだ。知識と無知はそこにあるのに、君はそれを無駄にしてしまった。

いや、それは誤解だよ。そんなに単純じゃない。答えの間に明確な確率の差がある質問もあれば、ロジット分布がその根底にある自信のなさをすぐに明らかにすることもある。でも、一貫して間違った答えを出すLLMを引き起こす質問もあるんだ。例えば、質問が内部的に別の似たような質問と関連付けられていて、それが原因でBが93%の確率で出たけど、Bは間違った答えだったりすることもある。場合によっては、LLMが自分の不確実性を潜在的に認識していることもあるんだけど、何らかの理由で「最善の推測」を選んでしまうことがあるんだ。今回はそれが間違ってたけどね。

いろんなベクトルを使ったグラフモデルがあれば、結果の既知の部分を改善できると思う。でも、未知の未知はハルティング問題に帰着するから、人間の知能でもそれは解決できないんじゃないかな。

それは違うよ。キャリブレーション(非公式に言うと、モデルのロジットの確実性が正しい回答を得る確率とどれだけ相関しているか)は、あらゆるサイズのLLMでよく研究されている。LLMは(一般的に)うまくキャリブレーションされていないんだ。

これはただの無駄話だよ。現在のモデルでは幻覚は避けられない。なぜなら、それはモデルによって定義された潜在空間の一部であり、私たちがそれを探る方法だから。必ず何か見つかるよ。推論は高次元空間でのエネルギー最小化みたいなもので、幻覚はすでにそこにあって、特定の入力に対しては必ず見つかる運命にあるんだ。

リンクされた論文、読んだ?

なんかこの表現、ちょっと変だなと思う。LLMは言語モデルだから、ハルシネーション(幻覚)を起こすんだよね。言語の確率モデルであって、真実をモデル化してるわけじゃない。特定のプロンプトに対して「真実っぽい」反応がトレーニングセットに多ければ、役立つ出力が得られる可能性が高くなる。なんかその考えにハマっちゃって、「これは情報検索ツールとして役立つ」って言ってる気がする。そして今は、その役立つ行動を強化するためにRL(強化学習)を使ってる。でも、やっぱりそれは(バイアスのある)言語モデルなんだよね。人間の思考とは違うと思う。もっと深い部分がある。言語のモデルは必要だけど、それだけじゃ私たちのメンタルメカニズムを説明するには不十分だよ。他にも言語の断片を生成する以外の考え方があるし、LLMのような確率モデルが「望ましくない」または「不正確な」反応を出すケースを排除しようとするのは、ちょっと変だと思う。

LLMのサイズの確率モデルが「望ましくない」または「不正確な」反応を出すケースを排除しようとするのは、ちょっと変だよね。なんで?それは、ハルシネーションしたエラーを含む「望ましくない」コードスニペットを排除するのと同じくらい変じゃない?これはすごく重要なことだし、全然変じゃないよ。

実際、言語自体が本当に起こっていることの全てを捉えているわけじゃない。むしろ、最も貧弱な表現方法だと思うけど、コスト的に効率よく様々なメディアを通じて伝達できる方法だよね。例えば、私がある概念を説明するとき、思い浮かぶのは文字や言葉の並びじゃない。概念について学んだときに得たイメージや音の混ざり合いがある。それをテキストに翻訳して、コミュニケーションできるようにしてる。人々がNetflixを観るときにネイティブ字幕を使う理由があるのは、テキストがイメージや音を補完するからだよ。

あなたが言ったことには全部同意するけど、> LLMのサイズの確率モデルが「望ましくない」または「不正確な」反応を排除しようとするのは、ちょっと変だよね。っていう部分は除いてね。あなたが言うように、これは予測モデルなんだから、ML科学者の仕事はそのモデルを繰り返し改良して、見たことのないデータに対して完璧な精度を目指すことだよね。予測エラーの率を下げるためにモデルを調整したいのは理解できる。完璧な予測精度がほとんど不可能だから、精度と再現率の間で判断を下さなきゃいけない。LLMの場合、それはモデルがどれだけハルシネートするか、またはどれだけ沈黙したり過度に慎重になるかに直接影響する。

この記事では、言語モデルが不確実なときに abstain(控える)ように訓練できると直接述べられてるよ。報酬の設定を変えることでね。今のインセンティブは、正直に不確実性を伝えるよりも、当てずっぽうを促してるんだ。もし違う意見があるなら、タイトルだけじゃなくてその理由を説明してくれると助かるな。

人間はそんな風には動かないと思う。これが出てくるたびに、ドイチュの話を持ち出さなきゃいけない。彼の知的認知の説明が一番いいと思うんだ。彼はポッパーの「推測と批判」のアプローチを科学に持ち込んで、こういう推測と検証のループが私たちの思考全般に当てはまると主張してる。例えば、話し言葉を理解するのには、何が言われたかを推測して、それを聞いた音と照らし合わせる要素がある。視覚処理にも似たようなことがあるよね。LLMは推測するのが得意みたいだけど、チェックすることや、チェックが必要だってことに気づくのが苦手みたい。

人々は、LLMがハルシネーションを止められると仮定することの不条理を理解しない傾向があるよね。それは、真実が絶対的に客観的で、言語がマッピングできる滑らかな多様体上に存在することを意味するんだ。つまり、「すべての真実の事柄」を表す高次元の表面があるってこと。どんな事実も、この表面に表現されているかどうかを探ることで「真」か「偽」かを簡単に解決できる。例えば、「私の社会保障番号は123-45-6789です」が真かどうかは、その文が真実の多様体にマッピングできるかどうかをチェックするだけで決まる。そうすれば、その真実の多様体を歩き回って、すべての真実の事柄を生成することもできる。もしそんなものが存在したら、AGIについてのどんな妄想も穏やかに思えるだろうね。編集:さらに簡単に言うと、これは任意の英語の文に対して「is_true(statement: string): bool」関数が使えることを意味する。

その通り。人々が「ハルシネーション」をシステムのバグの一種だと考えるのがいつも不思議だった。まるでコードやトレーニングのモダリティをちょっと調整すれば、間違いを犯さない絶対的な真実のオラクルが生まれるかのように。

これが核心的な問題の完璧な説明だと思う。これについて考えると、他の動物も「知性」や少なくとも認知のように見えることをいろいろやっていて、それを言語なしで完全に行っていることが目立つ。私の猫は明らかに物体を認識していて、それに異なる価値を与えている(「怖い」、「美味しい」、「遊ぶのが楽しい」など)。それらと何らかのループでやり取りし、ある程度はその行動を予測し、興味を持っている(数日間、家の工事をしていたときに作業員を理解しようとする姿を見るのは本当に楽しかった)。これらは言語よりも知性のもっと基礎的な側面だと思う。言語はもちろん、人間の認知や知性を形成するのに計り知れないほど貢献しているけど、ほぼ確実にこれらの前言語的な基盤の上に築かれている。もう一つの良いヒントは、人間が行ってきた非言語的な思考全般だ。アインシュタインは、言語を使わずに視覚的かつ物理的に考えることについての有名な引用がある。これらすべては、何か別のことが起こっているという強力な示唆であり、これらの側面のいくつかは真の知性に必要だと思う。

予測モデルを調整するときは、常に精度と再現率のバランスを取らなきゃいけない。100%の精度は絶対に実現できないからね。LLMでは、そのバランスがモデルがどれだけハルシネートするか、または「わからない」と言う頻度として現れる。精度を重視すると、常に拒否するモデルになっちゃう。「YのXは何?」って聞かれても、「わからない」。「Kを実装する関数は作れる?」って聞かれても、「どうやってもわからない」。「Gの原因は何か?」って聞かれても、「言えない」。ユーザーとしては、すぐに飽きちゃう。試してみて、推測させて、判断は自分にさせてほしいんだ。ベンチマークやリーダーボードは通常再現率に偏る。なぜなら、常に挑戦するモデルが知性のより良い幻想を生み出すから。たとえその挑戦の中に間違いがあってもね。その幻想がユーザーを引きつけるから、より多くのユーザーとお金が集まる。それがLLMがハルシネートする理由さ :P

2つのバージョンのモデルを見るのは面白そうだね。正確さに調整されたプライマリモデルと、新しい(そして潜在的に不正確な)アイデアを生成するためのクリエイティブモデルを組み合わせたもの。プライマリモデルはアイデアやハルシネーションを評価して推論する役割を担う。なんか左脳/右脳のアーキテクチャみたいだね(もちろん、それは人間の脳半球の古いモデルだけど)。

一番の問題は、訓練に使われているデータセットだと思う。それは書かれたテキストだからね。与えられたテキストの中で、どれだけの回答が「わからない」という表現であるかに比べて、他の発言がどれだけあるか。多分、「わからない」はずっと少ないと思う。今、誰かが質問をしているインターネットのどこかに行ってみて(LLMが訓練されている典型的なコンテンツ)、問題はさらに大きくなる。テキストの回答がないか、誰かが何か答える(それが間違っているかもしれない)だけだ。「わからない」という回答は絶対に得られない、特に何かを叫んでいるような質問に対して(特定の人に聞くのと比べて)。それは理解できる。明日からすべてのスタックオーバーフローの質問に「わからない」と答え始めるなんて、スパムにしかならないからね。私のような素人(この仕組みがどうなっているか全く経験がない)には、これが原因のように思える。これをどうにかできるかな?多分。

ここにあるほとんどのコメントが、一般的な心理的直感の投影のように読めるのが面白い。LLMは「間違った考え方」をするからハルシネートする、あるいは自己認識が欠けている、または単に拒否すべきだ、という感じ。でも、それらはこれらのシステムが実際にどう機能しているかを反映していない。これは、最先端で働くチームからの論文で、LLMの最大のオープンチャレンジの一つを説明しようとしているのに、メカニズムや証拠に関わるのではなく、彼らが何をしているかについての直感的な意見を繰り返しているだけなんだ。興味深いね。

「幻覚」って呼ぶのは、ちょっと人間に寄せすぎじゃないかな。

いつも一番低レベルな意見が多いよね。でも、Hacker Newsのコメント欄の大半は、そもそも自分の意見を「幻覚」してるから。だって、広いテーマの中からトップの回答をそのまま吐き出してるだけだもん。Facebook?「データを盗む」 Google?「お気に入りの機能を潰す」 Apple?「App Storeは人々の敵」 OpenAI?「もっと言えばClosedAIだよね」