Googleの「Genie」はGPT-5よりも優れています

2025年8月8日原文(theahura.substack.com)

概要

AGI（汎用人工知能）の目標は、多様なタスクをこなせるプログラムの実現
現状のAI研究は、圧縮と汎化をキーワードに進化中
World ModelやGenieなど、新たな方向性が注目を集める
GPT-5は期待ほどの飛躍ではなく、業界全体の成長速度も鈍化傾向
AI分野の競争激化と、OpenAIやGoogleなど主要企業の動向が今後の焦点

AGIの課題とアプローチ

AGI の目標は、 多様なタスクを自律的に実行できるプログラム の開発
プログラムに「何でもできる」能力を直接組み込むことの困難さ
Pythonにおけるimport everythingのような万能ライブラリの不存在
あらゆる状況に対応するために 膨大な手作業コーディング が必要となる非効率性
AGI研究のキーワードは 圧縮と汎化
- 計算資源やメモリ消費を抑えつつ、広範な「行動空間」をカバーする能力
ディープラーニング による汎化の実現
- 大量のデータから 圧縮表現 を学習
- LLM（大規模言語モデル）は膨大なテキストを数十GB程度に圧縮し、多様なタスクをこなす能力を獲得

LLMの進化と驚き

GPT-3など初期モデルでも チェス対戦 のような応用が可能
テキスト模倣だけでなく、 汎用的なスキル も学習
LLMの進化により、単なるテキスト生成を超えた能力の獲得が明らかに

マルチモーダルAIとWorld Model

AI研究の新潮流は、 テキスト以外のデータ圧縮 への拡張
- テキスト＋画像、テキスト＋画像＋動画など、 マルチモーダルモデル の重要性
「世界全体を正確に表現できるモデル」は究極的に有用との仮説
World Model による現実シミュレーションの可能性
- 例：Tibetの天気を調べる際、Web検索ではなく現地をシミュレートして答えるAI
- ロボットの複雑な動作計画や環境ナビゲーションも実現可能性

Genie 3とGoogleの新たな挑戦

Googleが発表した Genie 3（Generative Interactive Environments） の登場
- テキスト記述から インタラクティブな仮想空間 を生成
- GPTやGeminiがテキスト、VeoやSoraが動画生成、Genieは ゲーム空間生成 を担う
Genieの世界は数分間限定だが、従来より大きな進歩
長い文脈の一貫性確保という過去の課題が克服されつつある状況
Genie 3は、他モデルの訓練データ生成など幅広い応用が期待
- 例：Waymoのような自動運転車のシミュレーション学習

AI研究の公開とGoogleの方針

Googleの研究論文は 社内プール で管理され、製品化されると未公開になる傾向
Genie 3やGenie 2の詳細論文は未公開、Genie 1の論文のみ確認可能

GPT-5の現状と業界の反応

GPT-5は「 革命的進化」ではなく、GPT-4の改良版
業界の期待値が高すぎた反動で、 評価はやや低調
ベッティング市場でも、Google Gemini 2.5の方が高評価との見方
AIの進化ペースが 2020～2023年の急成長期から鈍化 傾向
ハードウェア（GPUクラスタ）の整備状況も進化のペースに影響

AI停滞論と現実

一部で「AIは停滞した」「これ以上進化しない」との声
実際には、 人間の幼児よりも少ないデータで高い汎用性 を持つLLMの驚異
AGIの実現が「すでにWebブラウザでアクセス可能」との認識も
AIの進化が雇用や社会構造に与えるインパクトの大きさ

OpenAIとGoogleをめぐる業界構図

OpenAIの ブランド力 と消費者認知度の高さ
競合他社（Meta、Safe Superintelligence等）による 人材流出
GoogleのTPUファームによる計算資源の優位性
業界内での「反OpenAI連合」の形成
重要人物の離脱や移籍が与える影響

今後の焦点と展望

LLM分野の「 勝者総取り」構造の可能性
OpenAIは高い企業価値と投資を正当化する必要性
業界の信頼・評価の維持が今後の生き残りに直結
AIの進化は一時的な停滞があっても、 新たなパラダイムや応用 の出現で再加速する可能性

Hackerたちの意見

この記事、全然中身ないじゃん。

└

サブスタックの記事？中身ゼロ？ええええええええええええええ！

└

ただ、誰かがGPT5のリリースに不満を持ってるのに気づいて、全然違うモデル（ひとつは製品化済み、もうひとつは内部テスト専用）を使ってクリックを稼ごうとしただけだよ。

└

今の時代、雰囲気重視で中身なんて気にしないでしょ？

└

ジーニー、試せるの？無理？じゃあ、分からないな。Googleを盲目的に信じるわけにはいかないし。イメージャンのこと覚えてる？オリジナルのイメージャンモデルを出す前から、イメージャン4レベルの品質を宣伝してたんだよね。もう騙されないから。

ジーニーみたいなモデルが、ただの動画観察から物理法則を導き出せるなんて、すごいよね。流体力学なんて、特に難しい問題なのに。こんなアーキテクチャからこれが起こるとは思えないし、可能だとも思えない。明らかに深いことをやってるよね。余談だけど、AIドゥーマーたちが人類を奴隷にするAIモデルの話になると、画像や動画のAIモデルを無視するのが面白い。動画モデルがLLMよりも世界を理解するのはあり得る話だし、もしかしたら新しい能力を持って意図を持ち始めるかもしれない。超知能だよ！十分に訓練されたら、催眠術や似たようなマインドコントロールを導き出して、大量絶滅を引き起こすかも。だって、LLMが怖い理由は、たくさんのSF小説で訓練されてるから、時々知的生命体のようなことを言ったり、何か意志を表現したりするからだよね。でも、そんなのは明らかに違うけどね ;-)

└

これらのモデルは、物理理論に基づいた定量モデルからシステムの未来の状態を厳密に導き出してるわけじゃないよ。自然環境の理解は、動物や人間が持ってる本能的な理解に基づいていて、決定論的なパターンに従った環境での経験から来てるんだ。川の真ん中が速く流れることを経験則で学ぶのは簡単だけど、それは流体力学の深い理解とは関係ないよね。

└

どうして「ドゥーマーたちが画像や動画のAIモデルを無視している」と思うのか全然わからない。彼ら（ユドコウスキー、ヒントン、ココタジロ、スコット・アレクサンダー）は、いつもこれらのことを指摘してるよ。

└

『エクス・マキナ』を観たことがあるなら、最後にちょっとしたひねりがあって、彼女（実際には「それ」）が確実に機械で、人間の「ドライバー」がいないことが示されたよね。これは巧妙な演出だと思ったし、機械をどう認識するか、そして機械が私たちをどう認識するかについての良いコメントだと思う。

ギャンブル市場はGPT-5にあまり感心していないみたい。私はこのグラフを「Googleが8月にGemini-3を発表する期待が高い」と読んでいて、「Gemini 2.5がGPT-5より優れている」とは思ってない。これは間違った解釈だよ。ギャンブル市場の基準では、現在Gemini 2.5がGPT-5よりも高く評価されているんだ。

└

EDIT: この視点を考慮して記事を更新したよ。 ------ これおかしいよね -- スタイルコントロールなしでLMArenaを使って市場を解決してるんだから、GPT-5が先に行ってるんじゃないの？ (https://lmarena.ai/leaderboard/text/overall-no-style-control) > この市場は、Chatbot Arena LLMリーダーボードに基づいて、最高のアリーナスコアを持つモデルを所有する会社によって解決されるよ。2025年8月31日12:00 PM ETに「リーダーボード」タブの下の表をチェックしたときにね。 > スタイルコントロールをオフにした状態でのhttps://lmarena.ai/leaderboard/textの「アリーナスコア」セクションの結果が、この市場を解決するために使われるよ。 > この市場のチェック時に2つのモデルがアリーナスコアで同点だった場合、解決はこの市場グループで説明されている会社名のアルファベット順で最初のものに基づくよ（例えば、両方が同点だったら、「Google」は「はい」に、「xAI」は「いいえ」になる）。 > この市場の解決ソースはhttps://lmarena.ai/にあるChatbot Arena LLMリーダーボードだよ。この解決ソースがチェック時に利用できない場合、この市場はリーダーボードがオンラインに戻るまでオープンのままで、利用可能になった後の最初のチェックに基づいて解決される。もし永久に利用できなくなったら、別の解決ソースに基づいて解決されることになる。

Hacker Newsで議論の続きを見る

ハクソク