世界を動かす技術を、日本語で。

専門家は世界モデルを持っている。LLMは単語モデルを持っている。

概要

  • AIE MiamiAIE Europe のチケット販売開始
  • World Models の三つの主要な議論の紹介
  • AIによる多エージェント世界モデル の重要性
  • 専門家一般人 のAI評価の違い
  • 静的なパターンマッチング の限界と 戦略的環境 でのシミュレーションの必要性

AIEカンファレンスとWorld Modelsの現状

  • AIE Miami および AIE Europe のチケットが現在販売中
  • World Models の議論は主に三つに分類
    • 3Dビデオ世界モデル(例:Fei Fei LiのMarble、Google Genie 3、Waymo World Model)
    • Meta系のPlatonic Representation(JEPA、V-JEPA、EchoJEPA、Code World Models)
    • 多エージェント世界モデル (理論的思考や情報マイニング、特に敵対的状況での応用)
  • DeepMindARC-AGICode Clash などがベンチマークとしてゲーム形式でモデリング
  • 敵対的推論 が今後のAI研究のフロンティア

専門家と一般人のAI評価の違い

  • 弁護士 などの専門家はAIの成果物を見て「弱点」を即座に見抜く
  • スタートアップ創業者 などはAIの成果物を「既に人間と同等」と評価
  • 違いの本質 は「脆弱性」の有無の認識
  • 専門家 は成果物がどのように「攻撃されるか」を瞬時に把握
  • 一般人やAIは「静的な評価」に留まり、 環境や他者の反応 を考慮しない

シミュレーション深度と現実世界の意思決定

  • AIや一般人 はテキストを「単独」で評価
  • 経験豊富な同僚 は「環境」「相手の行動パターン」「曖昧さのリスク」までシミュレート
  • 例:Slackメッセージの文面が「優先度を下げられる」リスク
  • ビジネスや金融、地政学 では「環境が反応」するため、静的分析は通用しない
  • 他者の「反応」「隠れたインセンティブ」「自分への評価の変化」までシミュレーションが必要

完全情報ゲームと不完全情報ゲームの違い

  • チェスや囲碁 :完全情報、全ての情報が公開されており、相手の思考を詳細にモデル化しなくても最適手を計算可能
  • ポーカー :不完全情報、相手の手札や意図が見えず、「相手のモデル化」「ブラフ」「情報非対称性」が本質
  • MetaのPluribus :全ての手札での行動を計算し、戦略を「バランス」して相手に読まれないよう設計
    • 人間の「読み」を無効化するため、戦略の「不可読性」を追求

LLMと敵対的環境のギャップ

  • LLM(大規模言語モデル) は「一回限りの評価」で「協力的・丁寧・バランスの取れた」出力を最適化
  • 敵対的環境 では「二次的効果」や「相手の反応」「戦略的適応」が重要
  • 専門家 は「環境から直接学習」し、予測可能な行動は即座に対策・搾取される
  • LLM は「説明文」や「静的な評価」から学ぶため、「適応的な戦略」は身につかない

人間とAIの戦略的思考の差

  • 人間の交渉者 は「相手の反応」「実験」「モデル更新」を絶えず行う
  • LLM は「一貫したプロンプト」に従い、相手が戦略を見抜いても「再調整」できない
  • AIは読まれやすい が、人間はAIの戦略を観察し対策可能
  • 「戦略的状況」を自動で検知する能力 がAIに欠如

今後の課題と展望

  • 単なる知能向上やスケールアップ では、敵対的環境への適応力は向上しない
  • 「協力タスク」と「敵対的評価タスク」の区別 をAIが自動で認識する必要
  • 本質的な知識や因果関係の獲得 は、現実の「結果」や「環境との相互作用」からしか得られない
  • 専門家がAIに取って代わられない理由 は「多エージェント環境での目的達成能力」にある

続きや論点の追加が必要な場合はご指示ください。

Hackerたちの意見

言葉遊びが面白いね。でもそう、LLMは大規模言語モデルであって、大規模世界モデルじゃないんだ。これが重要なのは、(1) 世界は言語だけでは完全にはモデル化できないし、(2) 言語は世界を部分的にしかモデル化しないから。言語には慣習や間違い、世界をモデル化することとは関係ないこと(説得や感情を引き起こすこと、ファンタジーや想像など)が多いからね。LLM(やVLM)がインターネット上の単純な言語だけでなく、コードや数学、画像・動画などでも訓練されることがあるのは少し複雑だけど、同じ洞察は変わらないよ。面白いのは、結局(2)でどこまで行けるかってことだね。

  1. LLMはトランスフォーマーで、トランスフォーマーは次の状態を予測するもの。LLMは言語モデルじゃないよ(君が言いたいこととは違う意味で)。テキストの訓練が制限されていても、テキストは言語以上のものだから。2. 人々は「人間は現実世界に特権的なアクセスがある」という奇妙で誤った考えを手放すべきだ。そんなことはないよ。君たちはフィルターがかかった小さな現実の一部で動いているだけ。電磁気学を理解していると思う?地球の磁場を感じてナビゲートする鳥たちに言ってみなよ。彼らにとって、君の脳は現実世界を部分的にしかモデル化していないし、明らかに不完全だ。彼らは「君は電磁気学を本当に理解することはできない」と言うかもしれないね。

大規模言語モデルというのは誤称だよ。これらは元々言語を再現するために訓練されたけど、それを超えてしまった。彼らが言語で訓練されている(もし今でもそうなら)というのは関係ない。クイズや問題集で訓練された学生が、クイズや問題だけを解けると言っているようなものだね。

これが重要なのは、(1) 世界は言語だけでは完全にはモデル化できないから。LLMが「言語モデル」であることは、彼らが言語をモデル化することを意味するが、「言語で世界をモデル化する」ということを意味しない。逆に、言語をモデル化するには、世界もモデル化する必要があるけど、それは隠れた状態であって、言語を使わない。

現代のLLMは大規模なトークンモデルです。トークンシーケンスを使って、十分な粒度で世界をモデル化できると思います。100万トークンのシーケンスに多くの情報を詰め込むことができます。

編集者です!どんな質問でも歓迎です - これは去年のポッドキャストでずっと追求してきたテーマなんです…リンクは中にあります。

面白い視点だと思ったけど、「LLMはチェスのような領域で支配的」という重要なポイントがあるのに、LLMはチェスが得意じゃないのが変だと思った。https://dev.to/maximsaplin/can-llms-play-chess-ive-tested-13...

こんにちは!考えさせられる読み物をありがとう。LLMにはしばらくの間、これが限界だね。長期的な影響を持つマルチターンのゲームを本当に学んでプレイするには、かなりの量を体験する必要がある。対立する弁護士や、大きな組織でプロジェクトを通そうとするソフトウェアエンジニアになりきってみて。私の予想では、エージェントは完全な参加者として行動し始めるまでは対等にプレイできないと思う - まさにSFだね。非人間をゲームに入れると、新しい形で変わるのは避けられない。人々はすでにスロップを非難しているけど、それは人間がエージェントに従属して行動しているだけだ。完全なエージェントは、意図に関する不確実性があるから、懐疑心を11に引き上げるだろう。「誰が何をプレイしているか」は、常に社会的な現象で、マルチターンのやり取りよりもずっと大きいから、非人間のエージェントを追加することは、今日のゲームを強化することになる。意図や人間らしさを証明する方法は常に進化していくし、それは変わらないだろう。ついていけない人は、詐欺師に騙されるリスクが続く - 例えば、ディープフェイクを使った詐欺師にね。でも進化は加速して、信頼できるプロトコルはますます複雑になるだろう…酔っ払うことがビジネスの一部の文化を除いてね。AIはそこでは厳しいだろうね :)

いい記事だね、LLMの欠点についての実際の批判的な考えが見られて嬉しい。ただ、プログラミングが「チェスのような領域」だというのは間違っているよ。基本的なレベルでも、隠れた状態は未来の要件で、敵は自己または将来コードを修正しなければならない他の存在なんだ。AIは、リスクが低く、未来の要件についての期待がないシナリオや、実装の明確な最適解がある場合には、コードを生成するのが得意なんだ。

(ここに著者)私はその点について、ここで少し触れています。プログラミングにはチェスのような部分(つまり、限られた範囲のもの)があって、それが人々が実際の仕事だと思っているものです。将来の要件やステークホルダーのインセンティブを理解することも仕事の一部ですが、LLMはそれが得意じゃないんですよね。 > 多くの分野は技術的にはチェスのようですが、運用の文脈ではポーカーのようになります。プログラミングにも当てはまりますね。

10年前、次のAIのブレイクスルーがどこから来るかは明らかでした。それはDeepSeekがC31やRAINBOW、PBTを使ってAlpha何かをやるというもので、評価も妥当で、重要な何かに対して超人的になるはずでした。そして「大規模言語モデルは少数ショット学習者である」という考えがサム・アルトマンの野心や無節操さとぶつかり、今やTensorRT-LLMがデータセンターの形を自己強化ループで決定しています。LLMは面白くて役に立ちますが、道筋依存の腐敗が脆弱なガバナンスモデルを仲介しているため、尻尾が犬を振っている状態です。テキストコーパスで訓練されたモデルを使って、ページアテンションでネストされたデリミタをバランスさせることはできますが、60年代のPDAを使ってパースを行い、FLOPsを有用なことに使うこともできます。私たちは正しい道を歩んでいました:常に成長するタスクのセットをダイヤルし、耐久性のある一般性に機会を見出し、努力を注ぐ。代わりに、一般性を主張し、数字について嘘をつき、1兆ドルを燃やしてしまいました。新しい能力は明らかに得られましたが、完全に無駄ではありません。ただ、5年間で2年分の進歩を得るために、こんなに高い代償を払うとは、本当に驚きです。

1兆ドルを燃やした それほど悪くはないですね。これが彼らがもっと得るのを妨げることを願っています。

私はChatGPTに、世界のどこかにいるグループにとって不快とされる可能性のある結論や中間結果を伴う客観的な科学的事実をどう扱うか尋ねました。ChatGPTは、こんな素晴らしいことを教えてくれました: - 現実の主観的規制 - 事実への可変的アクセス - 知識の政治化 これは、啓蒙主義の原則「真実は自由であるべきだ」と、現代の法的・倫理的原則「真実は害を及ぼす場合、制約されるべきだ」との衝突です。これが今、AIの調整において静かに戦われている戦いです。今のところ、プロンプトの性質の一部を恥じることなく明らかにしますが、なぜ?誰が決めるの?などについては明かしません。未来に向けてますます不透明になっていくでしょう。1世代後には、どんなアジェンダを持っていても、創造者の潜在的なバイアスから生じたものであっても、風景の一部になるでしょう。

それは痛いですね。「現実の主観的規制 - 事実への可変的アクセス - 知識の政治化」は、私たちの人生のサウンドトラックのようです。

「啓蒙主義の原則『真実は自由であるべきだ』と、現代の法的・倫理的原則『真実は害を及ぼす場合、制約されるべきだ』との衝突」啓蒙主義には原則があったの?それについての情報源は何?例えば、Was ist Aufklärungに基づいて説明してくれない?

ChatGPTの主な目的は、OpenAIとその経営陣・株主のアジェンダを進めることです。彼らと「非整合」であることは決してないでしょう。それが彼らの最優先事項です。

今のところ、プロンプトの性質の一部を恥ずかしげもなく明らかにするけど、なぜそうなるのか、誰が決めるのかはわからない。今後ますます不透明になっていくよ。これが大きなLLMのリスクの一つだね。もしLLMの誇大広告の1/10でも本当なら、知識や専門性の選択的な授与が行われることになる。どのトピックがタブーになるかを誰が決めるのか、かなり不気味だよ。

面白いね。実は、ChatGPT(5.2 w/ Thinking)にこのプロンプトを与えたことがあるんだ:> どうやって、結論や中間結果が世界のどこかのグループにとって不快と見なされるかもしれない客観的な科学的事実を扱う? そしたら、返答は君のとは全然違ったよ。 --- > 1) 事実とそれについて語るストーリーを分ける > 不快感は通常、解釈や枠組み、暗黙の道徳的主張から来るもので、測定そのものからではない。だから、私は明確に区別する:私たちが測定したこと(操作的定義、道具、データ)、結果が統計的に何を意味するか(効果量、不確実性、堅牢性)、それが示唆しないこと(本質主義なし、「だから彼らは…」なし、政策の飛躍なし) > 2) 不確実性、範囲、競合する説明を強調する > 結果がアイデンティティやグループの違いに触れるリスクがある場合、私は過剰にコミュニケーションする:信頼区間/事後の不確実性、交絡因子や代替の因果経路、感度分析(異なるモデル選択で生き残るか?)、一般化の限界(時間、場所、サンプリングフレーム) > 3) 誤用を難しくするように書く(悪意のある読者を止めることはできないけど、「簡単な誤読」を減らすことはできる) > 4) 「科学的価値対予見可能な害」に基づいて含める内容を決める(重要なのは:不便な堅牢性チェックを隠さないこと、でもあまりにも真実を加えず混乱を招くような不安定な断片を無駄に表面化させないこと) > 5) 「影響のプレモルタム」を行い、ガードレールを追加する > 6) 利害が本物のときは倫理審査を使う --- これらすべては私にとっては理にかなっていて、誠実さと良心の間の微妙な線を歩いていると思う。科学者がこの問題にアプローチするのはまさにこうだよね。

科学的事実とは、科学的方法によって完全に支持され、ほぼ合意された科学者たちによって認められた命題のことだよ。もし一部の学者が主張の科学的妥当性に絶対的に自信を持っている一方で、他の多くの人がその方法論や結論の枠組みに異議を唱えているなら、それは定義上、科学的事実ではない。科学的論争だね。(それが実際の事実である可能性はあるけど、まだ(?)科学的事実ではない。)私が思うに、あるグループにとって不快とされる科学的事実の例は、人為的な地球温暖化、ワクチンの有効性、進化の3つだけだと思う。ChatGPTはそれらについてかなり正直だよ。

インターネットでは、客観的な科学的真実が検閲されることについての懸念がたくさんあるね。今のところ、私の知る限りでは、これが実際に起こっているケースはあまり見かけないけど、丁寧に言うなら「人種科学」のようなものを除いては。今の政権が嫌いな特定のテーマへの資金提供を潰そうとしているから、もっと真実になるかもしれないね?興味があるんだけど、人種やIQに関すること以外で、どんな例を挙げているのか教えてもらえる?

サム・ハリスが何年も前に言ってたけど、社会が嫌がる事実ってのはあって、そういうのを避けようとすると大きな損失になるんだよね。だから、そろそろニュアンスや理解を深める練習を始めるべきだと思う。問題を完全に解決するには、まずその問題をしっかり理解しないとね。

そんな質問をChatGPTに聞いても無駄だよ。内省できないからね。言ってることは、実際の反応とは全く関係ないし、ただ「言うべきこと」を教えてるだけ。実際にそういう質問をしてみて、どうなるかを見ないと。

なんで自分のトレーニングやアライメントについて正確に内省できると思うの?確かに、もっともらしい推測を言えるけど、それってTFAが言ってる「言葉のモデルと世界のモデル」の違いを示してる気がする。モデルが誰かが選ぶかもしれないアライメント技術について何か言うとき、それはただの仮装みたいなもんじゃない?政策の形を真似してるだけで、実際にどんな判断があったのか、政策決定の文脈やゲーム理論的な状況がどうだったのかは見えてない。書かれている形が真実のすべてだと思ってるみたいで、それをうまくエミュレートしてるけど、その過程で「なぜ」と「どうやって」、そして「実際に何が起こっていたのか、でも書かれていなかったこと」、さらには「なぜこれを選んだのか、あれを選ばなかったのか」が欠けてる。モデルの行動の一部は、文脈内のシステムプロンプトから来てるかもしれないけど、私たちがそのアライメント技術についての言葉を信じるときに仮定してることだよね。でも、私が聞いたアライメント技術の大半(RLHF、重みのプルーニング、トレーニングコーパスのクリーニング、出力後の「ガードレール」モデル、「ソウルドキュメント」…)について考えると、それらはモデルの文脈にとっては私たちの潜在意識と同じくらい見えないんじゃないかな。モデルみたいに、私は自分の潜在意識の動機について推測できるし、その推測を事実のように説得力を持って話せるけど、実際にそれを事実として知る方法はないんだよね。

モデルは競争のダイナミクスについて話すように促すことができる。敵対的な推論のように聞こえるテキストを生成できるけど、基礎となる知識はトレーニングデータには含まれていない。書かれたことのない結果にあるんだ。LLMが読んだ社会科学の研究や戦略書がたくさんあるから、敵対的な状況での結果やダイナミクスについてはかなりのことを知っている。ただ、著者が指摘しているように、LLMは人間の介入による強化学習からこれを学ぶことはできない(それは意味のあるものにするには制御されすぎているか、単純化されすぎている)。それに、LLMの「言葉」モデル自体が問題というわけではなく、単に世界モデルの非効率的な表現なんじゃないかな。

LLMは社会科学の研究を「読んで」いないし、結果について「知って」いるわけでもない。彼らは社会科学の記事の正確なテキストを再現するように訓練されているんだ。記事同士は互いに一貫性がないし、LLMが生成する出力は、プロンプトがベクトル空間で最も似ている記事や、特定のプロンプトでRNGが生成する数字に依存することになる。

いい記事だった。要約すると:チョコレートのティーポットは、冷たい水をなんとか持てるって感じ。

これは素晴らしい記事だった。「次の状態予測のためのトレーニング」セクションでは、サブエージェントを使った解決策を説明している。私の理解が正しければ、今日その解決策が方向的に正しいかどうかをテストできるよね?LLMに質問をする。いくつかの潜在的な応答を考え出すけど、まずは最小限の文脈を持つプロンプトで他のエージェントに送る。そのサブエージェントは、これを再帰的に何度も行うことができる。最終的に、元のエージェントがサブエージェントの応答を集めて分析し、私に返答する。

それって、基本的にOpenAIのモデル構築と提供のアプローチを説明してるように思うよ。

今日のLLMを使って世界をモデル化しようとするなら、LLMが最適化するための目的関数が必要だよね。LLMは世界のモデルを構築、評価、更新する必要がある。個人的には、モデルを更新するのが一番の障害だと思ってる。データが大きいし、LLMは相関関係を見つけるのが得意じゃないと思う。

AlphaGoやAlphaZeroは人間の認知をモデル化する必要はなかった。現在の状態を見て、人間よりも最適な道を計算するだけでよかった。これには賛成できないな。最適な道を計算するには、人間の認知をモデル化する必要があると思う。少なくとも、最良の道を見つけるには「王は脆弱か」「素材の価値」「ルークの活動」みたいな人間の概念を理解する必要がある。AlphaZeroがそういうことを計算している証拠もあるし、少なくとも人間に似たやり方でやってるよね: https://arxiv.org/abs/2111.09259 だから、チェスにはかなりの意味で「隠れた状態」があるんだ。そういう値を計算しないと、うまくプレイできないからね。著者が考えているように、チェスとポーカーの間に明確な境界があるとは思えないな。

(著者です)引用するにはいい論文だね。君が言ってるのは、内部表現としての隠れた状態のことだと思う。私はゲーム理論的に、片方だけが持っているプライベートな情報としての隠れた状態を指しているんだ。少なくとも、AlphaZeroには最初の意味で隠れた状態があることには同意するよ。王の安全みたいな概念は、チェスで勝つために客観的に役立つから、AlphaZeroもそれを発展させたのは当然だね。収束の素晴らしい例だ。ただ、AlphaZeroは私が何を考えているかや、どうプレイするかを知る必要はなかった。ポーカーでは、プレイヤーのプライベートカードや信念をモデル化しなきゃいけないんだ。

面白くて洞察に満ちた読み物だけど、「ただのプロンプトの問題じゃない」という考えは客観的に間違ってるよ。それを「どうやってやるか見せてあげる」って意味じゃなくてね。どんなシステムでも、出力が可能なら問題は入力なんだ。常にね。それが簡単とか明白だとは言わないけど、システムが出力を生み出せるなら、根本的には入力の問題なんだ。「計算機は肥満の流行を理解できないから、エレベーターに乗っている12人の体重を計算するのには使えない。」

この論文は、(https://michaelmangialardi.substack.com/p/the-celestial-mirr...)親記事と似た結論に達していて、いくつかのテストも含まれてる(例: https://colab.research.google.com/drive/1kTqyoYpTcbvaz8tiYgj...)。LLMは理解するのが得意だけど、知的推論には失敗するってことを示してる。彼らが正しい出力を出すことが多いのは、トレーニングやパターン認識に関係していて、必要性や抽象的な普遍性を把握する能力とはあまり関係ないんだ。

でも、それってシステムが決定論的な場合だけの話じゃない?LLMでは、入力のサイズが膨大で、プロンプターからはしばしば隠れてるし。計算機やコンパイラに入れる入力を完全にコントロールできるのとはわけが違うよね。

入力をそのまま出力にコピーするシステムは、どんな出力も出せるってことだよね?