世界を動かす技術を、日本語で。

Googleの「Genie」はGPT-5よりも優れています

概要

  • AGI(汎用人工知能)の目標は、多様なタスクをこなせるプログラムの実現
  • 現状のAI研究は、圧縮と汎化をキーワードに進化中
  • World ModelやGenieなど、新たな方向性が注目を集める
  • GPT-5は期待ほどの飛躍ではなく、業界全体の成長速度も鈍化傾向
  • AI分野の競争激化と、OpenAIやGoogleなど主要企業の動向が今後の焦点

AGIの課題とアプローチ

  • AGI の目標は、 多様なタスクを自律的に実行できるプログラム の開発
  • プログラムに「何でもできる」能力を直接組み込むことの困難さ
  • Pythonにおけるimport everythingのような万能ライブラリの不存在
  • あらゆる状況に対応するために 膨大な手作業コーディング が必要となる非効率性
  • AGI研究のキーワードは 圧縮と汎化
    • 計算資源やメモリ消費を抑えつつ、広範な「行動空間」をカバーする能力
  • ディープラーニング による汎化の実現
    • 大量のデータから 圧縮表現 を学習
    • LLM(大規模言語モデル)は膨大なテキストを数十GB程度に圧縮し、多様なタスクをこなす能力を獲得

LLMの進化と驚き

  • GPT-3など初期モデルでも チェス対戦 のような応用が可能
  • テキスト模倣だけでなく、 汎用的なスキル も学習
  • LLMの進化により、単なるテキスト生成を超えた能力の獲得が明らかに

マルチモーダルAIとWorld Model

  • AI研究の新潮流は、 テキスト以外のデータ圧縮 への拡張
    • テキスト+画像、テキスト+画像+動画など、 マルチモーダルモデル の重要性
  • 「世界全体を正確に表現できるモデル」は究極的に有用との仮説
  • World Model による現実シミュレーションの可能性
    • 例:Tibetの天気を調べる際、Web検索ではなく現地をシミュレートして答えるAI
    • ロボットの複雑な動作計画や環境ナビゲーションも実現可能性

Genie 3とGoogleの新たな挑戦

  • Googleが発表した Genie 3(Generative Interactive Environments) の登場
    • テキスト記述から インタラクティブな仮想空間 を生成
    • GPTやGeminiがテキスト、VeoやSoraが動画生成、Genieは ゲーム空間生成 を担う
  • Genieの世界は数分間限定だが、従来より大きな進歩
  • 長い文脈の一貫性確保という過去の課題が克服されつつある状況
  • Genie 3は、他モデルの訓練データ生成など幅広い応用が期待
    • 例:Waymoのような自動運転車のシミュレーション学習

AI研究の公開とGoogleの方針

  • Googleの研究論文は 社内プール で管理され、製品化されると未公開になる傾向
  • Genie 3やGenie 2の詳細論文は未公開、Genie 1の論文のみ確認可能

GPT-5の現状と業界の反応

  • GPT-5は「 革命的進化」ではなく、GPT-4の改良版
  • 業界の期待値が高すぎた反動で、 評価はやや低調
  • ベッティング市場でも、Google Gemini 2.5の方が高評価との見方
  • AIの進化ペースが 2020~2023年の急成長期から鈍化 傾向
  • ハードウェア(GPUクラスタ)の整備状況も進化のペースに影響

AI停滞論と現実

  • 一部で「AIは停滞した」「これ以上進化しない」との声
  • 実際には、 人間の幼児よりも少ないデータで高い汎用性 を持つLLMの驚異
  • AGIの実現が「すでにWebブラウザでアクセス可能」との認識も
  • AIの進化が雇用や社会構造に与えるインパクトの大きさ

OpenAIとGoogleをめぐる業界構図

  • OpenAIの ブランド力 と消費者認知度の高さ
  • 競合他社(Meta、Safe Superintelligence等)による 人材流出
  • GoogleのTPUファームによる計算資源の優位性
  • 業界内での「反OpenAI連合」の形成
  • 重要人物の離脱や移籍が与える影響

今後の焦点と展望

  • LLM分野の「 勝者総取り」構造の可能性
  • OpenAIは高い企業価値と投資を正当化する必要性
  • 業界の信頼・評価の維持が今後の生き残りに直結
  • AIの進化は一時的な停滞があっても、 新たなパラダイムや応用 の出現で再加速する可能性

Hackerたちの意見

この記事、全然中身ないじゃん。

サブスタックの記事?中身ゼロ?ええええええええええええええ!

ただ、誰かがGPT5のリリースに不満を持ってるのに気づいて、全然違うモデル(ひとつは製品化済み、もうひとつは内部テスト専用)を使ってクリックを稼ごうとしただけだよ。

今の時代、雰囲気重視で中身なんて気にしないでしょ?

:(

ジーニー、試せるの?無理?じゃあ、分からないな。Googleを盲目的に信じるわけにはいかないし。イメージャンのこと覚えてる?オリジナルのイメージャンモデルを出す前から、イメージャン4レベルの品質を宣伝してたんだよね。もう騙されないから。

ジーニーみたいなモデルが、ただの動画観察から物理法則を導き出せるなんて、すごいよね。流体力学なんて、特に難しい問題なのに。こんなアーキテクチャからこれが起こるとは思えないし、可能だとも思えない。明らかに深いことをやってるよね。余談だけど、AIドゥーマーたちが人類を奴隷にするAIモデルの話になると、画像や動画のAIモデルを無視するのが面白い。動画モデルがLLMよりも世界を理解するのはあり得る話だし、もしかしたら新しい能力を持って意図を持ち始めるかもしれない。超知能だよ!十分に訓練されたら、催眠術や似たようなマインドコントロールを導き出して、大量絶滅を引き起こすかも。だって、LLMが怖い理由は、たくさんのSF小説で訓練されてるから、時々知的生命体のようなことを言ったり、何か意志を表現したりするからだよね。でも、そんなのは明らかに違うけどね ;-)

これらのモデルは、物理理論に基づいた定量モデルからシステムの未来の状態を厳密に導き出してるわけじゃないよ。自然環境の理解は、動物や人間が持ってる本能的な理解に基づいていて、決定論的なパターンに従った環境での経験から来てるんだ。川の真ん中が速く流れることを経験則で学ぶのは簡単だけど、それは流体力学の深い理解とは関係ないよね。

どうして「ドゥーマーたちが画像や動画のAIモデルを無視している」と思うのか全然わからない。彼ら(ユドコウスキー、ヒントン、ココタジロ、スコット・アレクサンダー)は、いつもこれらのことを指摘してるよ。

『エクス・マキナ』を観たことがあるなら、最後にちょっとしたひねりがあって、彼女(実際には「それ」)が確実に機械で、人間の「ドライバー」がいないことが示されたよね。これは巧妙な演出だと思ったし、機械をどう認識するか、そして機械が私たちをどう認識するかについての良いコメントだと思う。

ギャンブル市場はGPT-5にあまり感心していないみたい。私はこのグラフを「Googleが8月にGemini-3を発表する期待が高い」と読んでいて、「Gemini 2.5がGPT-5より優れている」とは思ってない。これは間違った解釈だよ。ギャンブル市場の基準では、現在Gemini 2.5がGPT-5よりも高く評価されているんだ。

EDIT: この視点を考慮して記事を更新したよ。 ------ これおかしいよね -- スタイルコントロールなしでLMArenaを使って市場を解決してるんだから、GPT-5が先に行ってるんじゃないの? (https://lmarena.ai/leaderboard/text/overall-no-style-control) > この市場は、Chatbot Arena LLMリーダーボードに基づいて、最高のアリーナスコアを持つモデルを所有する会社によって解決されるよ。2025年8月31日12:00 PM ETに「リーダーボード」タブの下の表をチェックしたときにね。 > スタイルコントロールをオフにした状態でのhttps://lmarena.ai/leaderboard/textの「アリーナスコア」セクションの結果が、この市場を解決するために使われるよ。 > この市場のチェック時に2つのモデルがアリーナスコアで同点だった場合、解決はこの市場グループで説明されている会社名のアルファベット順で最初のものに基づくよ(例えば、両方が同点だったら、「Google」は「はい」に、「xAI」は「いいえ」になる)。 > この市場の解決ソースはhttps://lmarena.ai/にあるChatbot Arena LLMリーダーボードだよ。この解決ソースがチェック時に利用できない場合、この市場はリーダーボードがオンラインに戻るまでオープンのままで、利用可能になった後の最初のチェックに基づいて解決される。もし永久に利用できなくなったら、別の解決ソースに基づいて解決されることになる。

これは間違った解釈だよ。ギャンブル市場の基準では、現在Gemini 2.5がGPT-5よりも高く評価されている。グラフを見ると、GoogleはGPT-5のリリース時に約25%から約80%に急上昇しているのがわかる。Googleのモデルは、どのベンチマークでも突然すごく良くなったわけじゃないよね?

「チベットの天気はどう?」ってモデルに質問して、天気.comをチェックするようなつまらないことをするんじゃなくて、チベットをシミュレートしてその結果から天気を教えてくれるって想像してみて。ここで読むのをやめた。

もう人間のインタラクションはすべて自動化しちゃってるよね。未来には、私たちの感覚そのものを自動化できるかも。ルームメイトは、窓の外に手を出す代わりに天気アプリを見て何を着るか決めてるし。天気を体験する代わりにシミュレーションするのは、ただの次の論理的なステップだよ。

AGIの目標は、たくさんのことができるプログラムを作ることだよ。ジーニーやGPTがAGIと何の関係があるの?億万長者になりそうな人たちは、自分のLLMがAGIまであと一歩だと見たいんだろうね。あるいは、Googleのあの人が一つに恋しちゃったり。でも、私たちのほとんどはもっと現実を知ってるよ。

一見、Genie3のようなモデルは、物理法則を重みとしてエンコードしていると思う。これは、LLMが言語をエンコードするのと同じ感じ。真のAGIが「世界モデル」の一部として物理を直感的に理解するためには、これが必要だと一般的に考えられている。成功すれば、AGIに向けた小さな一歩だけど、重要なステップだね。

他のみんなも、自分たちが意識を持っているって証明できないよね…覚えてる?

どれもAGIにはほど遠いよ。これができないし、長い間できないことがある:英語で推論して質問をすると、他の言語で得た知識を引き出すことが絶対にできない。人間は、神経質な内なる声に頼らず、手動翻訳なしでこれができる。これだけで、モデルには実際の洞察がないって結論に達するのに十分だよ。世界のモデルがないんだから。

何がAGIかどうかの議論は、完全に意味論的で、基本的に面白くないよね。LLMエージェントが実際にできること、できないことについて話そう。それが面白い議論だし、主張を検証するための実験をデザインできる。LLMと人間がさまざまなタスクでどうパフォーマンスするかを比較するのも興味深いし、検証可能だよ。でも、LLMエージェントが定義のないあいまいなラインを越えたかどうかを決めようとするのは、時間の無駄だよ。まるで「アリクイと木鼠、どっちがより人間らしいか?」って議論するのと同じくらい生産的じゃない。なんでその議論に価値があるの?

「チベットの天気はどう?」ってモデルに質問して、天気.comをチェックするようなつまらないことをするんじゃなくて、チベットをシミュレートして[...] チベットをシミュレートするのはやめよう。

台湾?

そうだね、中国はその未承認の刺激について何か言うかもしれないね。

なんか進展があったと思ったら、急にバカみたいなグラフの話に切り替わっちゃって、そこから逃げられない感じ。まあ、今後数週間でどうなるか見るのはすごく興味深いと思うし、24時間の反応との対比も面白いだろうね。俺のすごく素朴で情報不足な感覚だけど、OpenAIはGoogleみたいに他の収益源がないんじゃないかな。GPT5の戦略は、市場シェア戦略として見るとすごく理にかなってると思う。彼らは、手頃な価格でめちゃくちゃスケールアウトしたいんだろうね。もしそれがそんなに安いなら、他のベンダーがあまり気にしていないスケーリングの努力にたくさんの労力を注いでいるはず。OpenAIがもっと良いものを持っていて、それがすごく高価だってことも考えちゃうよね。全体的に、ちょっと変だけど感心してる。もしそれが本当に彼らの狙いなら、彼らの本来のミッションを大事にしているっていう小さな証拠になると思う。パワーユーザー以外の人にとっては、これが大きな前進になるかもしれないね。

彼らが他の収益源を持ってないのは大きな問題だと思うけど、元々のミッションを大事にしてるとは思わないな。彼らは元のすごいステップ関数モデルの改善を再現するのに苦労してるし、他のプレイヤーも追いついてきてると思う。OpenAIやAIの全体的な分析が好きなら、https://open.substack.com/pub/theahura/p/tech-things-gemini-... や https://open.substack.com/pub/theahura/p/tech-things-gpt-pro... も面白いかも。マクロ分析にもっと焦点を当ててて、ミームにはあまり触れてないから。

もっと印象的なのは、ダウンロードできるオフラインモデルを作ることだね。

6ヶ月くらい前からやっとGPTを使い始めて、便利なことをするために結構使ってる。やっと進化してきたなって感じ。ある日、GoogleのGeminiに関する大きなハイプセッションの後に、こっちもチェックしてみようと思ったんだ。で、顧客と作業してて、PowerShellで顧客データを抽出するスクリプトが必要だったんだけど、普段はWindowsが嫌いで触らないLinux派だから。Geminiにやりたいことを伝えて、スクリプトを作ってもらおうとしたら、いきなりPowerShellのプログラミングを教えようとしてきた。思わず笑っちゃって、何度か優しく「さっさとやってくれ、サンドイッチスクリプトを作ってくれ」と言ったら、「それはできないよ、デイブ」みたいなことを言われた。全然スクリプトを作ってくれなくて、RTFMを強要してきた。もしそれをやりたいなら、WindowsのPowerShellクラスを受けてたよ。しばらくそれを見つめて、最近のGoogleは何を考えてるんだろうって思った。昔はGoogleファンだったし、Googleグラスも持ってるからね(複数形で)。それからGPTに戻って、Geminiは二度と見なかったし、今聞くと笑っちゃう。Googleがこんなに落ちぶれたのは悲しいね。

何言ってるの?Gemini 2.5 Proは大きなコンテキストウィンドウを持ってて、数ヶ月間は最高のモデルだったんだよ。Claude Sonnet 4にしか抜かれなかった。https://polymarket.com/event/which-company-has-best-ai-model...

これってネタ?内なるジェフ・アルバートソンを引き出してるの?これが本当だとは思えない。まるでGemini自身が自分についてのパロディー的な逸話を返してるみたい。