GPT-5: 遅れすぎ、過剰評価され、期待外れ。しかもそれが最悪ではない

2025年8月10日原文(garymarcus.substack.com)

概要

GPT-5の登場 が期待外れであり、OpenAIへの信頼が大きく揺らいだ週
多くのユーザーや専門家 が失望し、旧モデルへの回帰を求める声が続出
技術的進歩は限定的 で、既存の課題やエラーが依然として残存
業界全体の誇大広告や誤解 に対する批判と懸念が高まる
大規模言語モデルの限界 と根本的な問題点が最新の研究で再確認

GPT-5登場と失望

OpenAIのGPT-5公開、大きな期待を集めるも内容は期待外れ
Sam Altmanの自信満々な発言 やStar Warsの引用が逆効果
RedditやSNS での批判、約3,000人が旧モデル復活を嘆願
初期のデモやベンチマーク で多数のエラーや誤作動が発覚
コミュニティの反応 は「過去最大級の失望」という評価
- 例：「GPT-5は大きな期待外れ」「これまでで最も残念なモデル」
- Polymarketの調査で OpenAIの信頼度が急落

技術的な問題点と限界

チェスや視覚理解 など、基本的な推論やルール適用での失敗が続出
画像生成や要約 など、マルチモーダル機能の質も向上せず
Grok 4や他社モデル と比較しても、劇的な進歩は見られず
「AGIに近い」との主張 に対し、現実は依然として遠い

OpenAIと業界全体への影響

OpenAIの技術的リード喪失、主要メンバーの離脱や競合の台頭
Microsoftとの関係悪化、収益化の困難、価格競争の激化
ブランド力やUXの強み のみが残る状況、時価総額維持への懸念
Sam Altmanの信頼失墜、過去の発言や過剰な期待煽りが裏目

ジェネレーティブAI分野の課題

他社モデルでも同様の問題 が頻発、Grokの事例で明確化
- 例：論文要約の誤り、事実誤認
「汎用AI」や「世界を変えるAI」 という幻想に対する懐疑の高まり
実用性の低さや誇大広告 に対し、ユーザーや研究者の不信感増大

今後の展望とまとめ

OpenAIのブランドや業界全体 への信頼が大きく揺らぐ転換点
AGIや「万能AI」への過度な期待 は現実と乖離
AI業界の誇大広告や透明性の欠如 に対する批判の高まり
本質的な技術課題の解決 が今後の発展に不可欠
ユーザーや投資家の冷静な目線 が求められる時代

Hackerたちの意見

GPT-5はコスト削減策だと思う。GPUが必要な製品で、1億人のユーザーを目指している会社だからね。GPT-5 Proについて話してる人、あんまり見かけないけど、個人的には以下のものと比べてテストしたよ：- Grok 4 Heavy - Opus 4.1 どちらよりも遥かに優れていて、完全に最先端だと思う。実際のパフォーマンスを最大限に引き出すと、ユーザー1人あたり月に数千ドルかかる可能性がある。だから、制約がかかってるんだよね。OpenAIはその市場セグメントを狙ってるわけじゃなくて、Googleに対抗するために成長を目指してる。このアーティクルにはProモデルについての言及が一切ないから、彼の意見は完全に無効だね。

└

Proは彼が説明している根本的な問題を解決するのかな？彼の意見を「完全に無効化する」ためには、単に基本モデルよりも優れているだけじゃダメだと思う。

└

ProはAPI経由で使えると思わないな。そうじゃなきゃ、試してみてるはずだし。Codex CLIを通じて使えるのかな？サブスクリプションを使えるようにアップデートされたみたいだし。

└

ここには同意するけど、同時により良いモデルを一般に広める手段でもあったと思う。o3は本当に素晴らしかったけど、まだ使ってる人は少なかった。毎日ChatGPTを使ってる友達にo3使ってる？って聞くと、ポカンとされることが多いし。だから、推論モデルを一般に広める方法でもあると思う。それがOpenAIのコストを増やすけど、ルーティングレイヤーのおかげでパワーユーザーにはコストカットになってる（HNのほとんどがそうだし）…ただ、パワーユーザーは推論モデルを強制的に使う方法を学べるけどね。

└

ネットワークをチェックしたけど、誰もGPT 5 Proを使ってない…フィードバックがあれば大歓迎！特にo3との比較で。

└

GPT-5 Proはo3-proよりもずっと良いとは思わない（良いとしても）。明らかに遅いし、出力の質は同じくらい。まだまだ騙されやすくて、時々ポイントを外すこともある。ただ、問題解決の新しいアプローチを提案するのは、ほんの少しだけ良いみたい。最初の印象としては、5-proはo3-proよりも0-2%くらい知識が多くて、5-10%くらい創造的/独創的だと思う。「トーン」とモデルのキャラクターは全く同じに感じる。特定のタスクでは超人的で最先端だとは思うけど、論理的な思考やデータ分析、基本的な短い分析タスクに限る。GrokやGeminiのどのバージョンよりも良いけど、文章を書くことやライティングボットとして機能することに関しては、明らかにKimi K2やDeepseek R1よりも劣ってる。

└

今の時点で気づいたことの一つは、どのモデルのサブスクリプションも買うのは絶対に悪手だってこと。提供されているものが急速に進化しているから、どれか一つの会社のものに縛られるのは本当に無駄なお金だよね。だって、次の月（または四半期）には古くなりそうなものに200ドルも前払いする必要ないじゃん。

実際のところ、これらのモデルを真のパフォーマンスマックスで運用するには、ユーザー一人あたり毎月数千ドルかかる可能性が高い。そういうロスリーダーモデルはUberで失敗したけど、他の競争相手が同じことをする制約がなかったからだよね。市場シェアを奪うために価格を下げることも含めて、結局は底辺争いと、どれだけお金を持ってるかのテストになっちゃう。

└

同意だね。これを推進している別の要因は、既存のモデルがほとんどのユーザーにとって十分に機能しているからかもしれない。HNのコメント者とは違って（これは人間が生成したものだよ、エムダッシュは無視してね ;P）、彼らは最新技術のことをあまり気にしていないんだ。

AIコミュニティには、マーカスのような独立した専門家がもっと必要だと思う。そうすることで、誇張や「内部で達成されたAGI」みたいな基準の変化に屈しないように、誠実さと透明性を保てるから。彼のスタイルに対する個人的な意見はともかく、マーカスはスケーリング法則の収穫逓減や、LLMタイプのAIにおける真の推論の欠如について、いくつかの点で正しいことが証明されている。これらは業界が最初は否定していた問題で、数年後には新しいものを売るために「最近の発見」として認めることになる。

└

同意、ハイプサイクルには声を上げる批判者が必要だよね。LLMについて一番大きな声を上げてるのは、最も利益を得てる人たちだから。私は反AIじゃないけど、経済全体を騙してこれが唯一の失業原因だと信じさせるのは馬鹿げてると思う（経済が厳しいのは他にも色々理由があるし、そのほとんどは国のリーダーシップの選択から来てる）。イノベーションが鈍化することで、私が使ってる製品がAIを無理やり取り入れるのをやめて、実際の機能やバグに取り組むようになることを願ってる。

└

これらのAIの限界や誤解をマーカスと結びつけるつもりはないけど、あなたはどう思う？

└

完全に反対だね。このエッセイはRedditの不満を再利用しただけで、テストの直接的な結果もなく、主に製品のローンチ（5億人以上のユーザーに同時にローンチしたことを考えてみて）についての問題ばかり。お願いだから。こういう批判的な記事は、5のローンチで本当に重要なことを見逃してると思うんだ。これはこの分野での初めての製品ローンチなんだよ。モデルの改善から、完全な製品がどうなるかという概念に移行しているんだ。5の重要な点は思考の強さじゃなくて、テストではo3よりもやや良いってのはベンチマークが言ってる通り。重要なのは、速さ、統合性、そして新しいモデルのブランドを必要とせずに段階的な改善（マルチモーダルなインタラクションや画像生成など）を提供できるように設定されていることだと思う。最も大きな改善点は、非常に長いツールの使用においてコンテキストや目標を保持する能力だね。ウィリソンは、今や彼の唯一のデイリードライバーだと言ってた（主にコーディングベースの使用設定で）。前のベストであるClaudeや、前のベストアーキテクト（o3-proやGeminiによって）よりも、より大きくて長い、コンテキストが必要なコーディングタスクをこなすのがかなり得意だと思う。コーディングに関してはo3-proよりもずっと速いし。とにかく、「4oと親密な関係を築いたRedditユーザーがこのローンチを嫌ったから、oAIは終わりだ」っていうのは弱い分析だし、無意味だよ。

Hacker Newsで議論の続きを見る

ハクソク