専門家は世界モデルを持っている。LLMは単語モデルを持っている。

2026年2月9日原文(latent.space)

概要

AIE Miami と AIE Europe のチケット販売開始
World Models の三つの主要な議論の紹介
AIによる多エージェント世界モデル の重要性
専門家 と 一般人 のAI評価の違い
静的なパターンマッチング の限界と 戦略的環境 でのシミュレーションの必要性

AIEカンファレンスとWorld Modelsの現状

AIE Miami および AIE Europe のチケットが現在販売中
World Models の議論は主に三つに分類
- 3Dビデオ世界モデル（例：Fei Fei LiのMarble、Google Genie 3、Waymo World Model）
- Meta系のPlatonic Representation（JEPA、V-JEPA、EchoJEPA、Code World Models）
- 多エージェント世界モデル （理論的思考や情報マイニング、特に敵対的状況での応用）
DeepMind や ARC-AGI、 Code Clash などがベンチマークとしてゲーム形式でモデリング
敵対的推論 が今後のAI研究のフロンティア

専門家と一般人のAI評価の違い

弁護士 などの専門家はAIの成果物を見て「弱点」を即座に見抜く
スタートアップ創業者 などはAIの成果物を「既に人間と同等」と評価
違いの本質 は「脆弱性」の有無の認識
専門家 は成果物がどのように「攻撃されるか」を瞬時に把握
一般人やAIは「静的な評価」に留まり、 環境や他者の反応 を考慮しない

シミュレーション深度と現実世界の意思決定

AIや一般人 はテキストを「単独」で評価
経験豊富な同僚 は「環境」「相手の行動パターン」「曖昧さのリスク」までシミュレート
例：Slackメッセージの文面が「優先度を下げられる」リスク
ビジネスや金融、地政学 では「環境が反応」するため、静的分析は通用しない
他者の「反応」「隠れたインセンティブ」「自分への評価の変化」までシミュレーションが必要

完全情報ゲームと不完全情報ゲームの違い

チェスや囲碁 ：完全情報、全ての情報が公開されており、相手の思考を詳細にモデル化しなくても最適手を計算可能
ポーカー ：不完全情報、相手の手札や意図が見えず、「相手のモデル化」「ブラフ」「情報非対称性」が本質
MetaのPluribus ：全ての手札での行動を計算し、戦略を「バランス」して相手に読まれないよう設計
- 人間の「読み」を無効化するため、戦略の「不可読性」を追求

LLMと敵対的環境のギャップ

LLM（大規模言語モデル） は「一回限りの評価」で「協力的・丁寧・バランスの取れた」出力を最適化
敵対的環境 では「二次的効果」や「相手の反応」「戦略的適応」が重要
専門家 は「環境から直接学習」し、予測可能な行動は即座に対策・搾取される
LLM は「説明文」や「静的な評価」から学ぶため、「適応的な戦略」は身につかない

人間とAIの戦略的思考の差

人間の交渉者 は「相手の反応」「実験」「モデル更新」を絶えず行う
LLM は「一貫したプロンプト」に従い、相手が戦略を見抜いても「再調整」できない
AIは読まれやすい が、人間はAIの戦略を観察し対策可能
「戦略的状況」を自動で検知する能力 がAIに欠如

今後の課題と展望

単なる知能向上やスケールアップ では、敵対的環境への適応力は向上しない
「協力タスク」と「敵対的評価タスク」の区別 をAIが自動で認識する必要
本質的な知識や因果関係の獲得 は、現実の「結果」や「環境との相互作用」からしか得られない
専門家がAIに取って代わられない理由 は「多エージェント環境での目的達成能力」にある

続きや論点の追加が必要な場合はご指示ください。

Hackerたちの意見

言葉遊びが面白いね。でもそう、LLMは大規模言語モデルであって、大規模世界モデルじゃないんだ。これが重要なのは、(1) 世界は言語だけでは完全にはモデル化できないし、(2) 言語は世界を部分的にしかモデル化しないから。言語には慣習や間違い、世界をモデル化することとは関係ないこと（説得や感情を引き起こすこと、ファンタジーや想像など）が多いからね。LLM（やVLM）がインターネット上の単純な言語だけでなく、コードや数学、画像・動画などでも訓練されることがあるのは少し複雑だけど、同じ洞察は変わらないよ。面白いのは、結局(2)でどこまで行けるかってことだね。

└

LLMはトランスフォーマーで、トランスフォーマーは次の状態を予測するもの。LLMは言語モデルじゃないよ（君が言いたいこととは違う意味で）。テキストの訓練が制限されていても、テキストは言語以上のものだから。2. 人々は「人間は現実世界に特権的なアクセスがある」という奇妙で誤った考えを手放すべきだ。そんなことはないよ。君たちはフィルターがかかった小さな現実の一部で動いているだけ。電磁気学を理解していると思う？地球の磁場を感じてナビゲートする鳥たちに言ってみなよ。彼らにとって、君の脳は現実世界を部分的にしかモデル化していないし、明らかに不完全だ。彼らは「君は電磁気学を本当に理解することはできない」と言うかもしれないね。

└

大規模言語モデルというのは誤称だよ。これらは元々言語を再現するために訓練されたけど、それを超えてしまった。彼らが言語で訓練されている（もし今でもそうなら）というのは関係ない。クイズや問題集で訓練された学生が、クイズや問題だけを解けると言っているようなものだね。

└

これが重要なのは、(1) 世界は言語だけでは完全にはモデル化できないから。LLMが「言語モデル」であることは、彼らが言語をモデル化することを意味するが、「言語で世界をモデル化する」ということを意味しない。逆に、言語をモデル化するには、世界もモデル化する必要があるけど、それは隠れた状態であって、言語を使わない。

└

現代のLLMは大規模なトークンモデルです。トークンシーケンスを使って、十分な粒度で世界をモデル化できると思います。100万トークンのシーケンスに多くの情報を詰め込むことができます。

編集者です！どんな質問でも歓迎です - これは去年のポッドキャストでずっと追求してきたテーマなんです…リンクは中にあります。

└

面白い視点だと思ったけど、「LLMはチェスのような領域で支配的」という重要なポイントがあるのに、LLMはチェスが得意じゃないのが変だと思った。https://dev.to/maximsaplin/can-llms-play-chess-ive-tested-13...

└

こんにちは！考えさせられる読み物をありがとう。LLMにはしばらくの間、これが限界だね。長期的な影響を持つマルチターンのゲームを本当に学んでプレイするには、かなりの量を体験する必要がある。対立する弁護士や、大きな組織でプロジェクトを通そうとするソフトウェアエンジニアになりきってみて。私の予想では、エージェントは完全な参加者として行動し始めるまでは対等にプレイできないと思う - まさにSFだね。非人間をゲームに入れると、新しい形で変わるのは避けられない。人々はすでにスロップを非難しているけど、それは人間がエージェントに従属して行動しているだけだ。完全なエージェントは、意図に関する不確実性があるから、懐疑心を11に引き上げるだろう。「誰が何をプレイしているか」は、常に社会的な現象で、マルチターンのやり取りよりもずっと大きいから、非人間のエージェントを追加することは、今日のゲームを強化することになる。意図や人間らしさを証明する方法は常に進化していくし、それは変わらないだろう。ついていけない人は、詐欺師に騙されるリスクが続く - 例えば、ディープフェイクを使った詐欺師にね。でも進化は加速して、信頼できるプロトコルはますます複雑になるだろう…酔っ払うことがビジネスの一部の文化を除いてね。AIはそこでは厳しいだろうね :)

いい記事だね、LLMの欠点についての実際の批判的な考えが見られて嬉しい。ただ、プログラミングが「チェスのような領域」だというのは間違っているよ。基本的なレベルでも、隠れた状態は未来の要件で、敵は自己または将来コードを修正しなければならない他の存在なんだ。AIは、リスクが低く、未来の要件についての期待がないシナリオや、実装の明確な最適解がある場合には、コードを生成するのが得意なんだ。

└

（ここに著者）私はその点について、ここで少し触れています。プログラミングにはチェスのような部分（つまり、限られた範囲のもの）があって、それが人々が実際の仕事だと思っているものです。将来の要件やステークホルダーのインセンティブを理解することも仕事の一部ですが、LLMはそれが得意じゃないんですよね。 > 多くの分野は技術的にはチェスのようですが、運用の文脈ではポーカーのようになります。プログラミングにも当てはまりますね。

10年前、次のAIのブレイクスルーがどこから来るかは明らかでした。それはDeepSeekがC31やRAINBOW、PBTを使ってAlpha何かをやるというもので、評価も妥当で、重要な何かに対して超人的になるはずでした。そして「大規模言語モデルは少数ショット学習者である」という考えがサム・アルトマンの野心や無節操さとぶつかり、今やTensorRT-LLMがデータセンターの形を自己強化ループで決定しています。LLMは面白くて役に立ちますが、道筋依存の腐敗が脆弱なガバナンスモデルを仲介しているため、尻尾が犬を振っている状態です。テキストコーパスで訓練されたモデルを使って、ページアテンションでネストされたデリミタをバランスさせることはできますが、60年代のPDAを使ってパースを行い、FLOPsを有用なことに使うこともできます。私たちは正しい道を歩んでいました：常に成長するタスクのセットをダイヤルし、耐久性のある一般性に機会を見出し、努力を注ぐ。代わりに、一般性を主張し、数字について嘘をつき、1兆ドルを燃やしてしまいました。新しい能力は明らかに得られましたが、完全に無駄ではありません。ただ、5年間で2年分の進歩を得るために、こんなに高い代償を払うとは、本当に驚きです。

└

1兆ドルを燃やしたそれほど悪くはないですね。これが彼らがもっと得るのを妨げることを願っています。

Hacker Newsで議論の続きを見る

ハクソク