世界を動かす技術を、日本語で。

GPT-5: 遅れすぎ、過剰評価され、期待外れ。しかもそれが最悪ではない

概要

  • GPT-5の登場 が期待外れであり、OpenAIへの信頼が大きく揺らいだ週
  • 多くのユーザーや専門家 が失望し、旧モデルへの回帰を求める声が続出
  • 技術的進歩は限定的 で、既存の課題やエラーが依然として残存
  • 業界全体の誇大広告や誤解 に対する批判と懸念が高まる
  • 大規模言語モデルの限界 と根本的な問題点が最新の研究で再確認

GPT-5登場と失望

  • OpenAIのGPT-5公開、大きな期待を集めるも内容は期待外れ

  • Sam Altmanの自信満々な発言 やStar Warsの引用が逆効果

  • RedditやSNS での批判、約3,000人が旧モデル復活を嘆願

  • 初期のデモやベンチマーク で多数のエラーや誤作動が発覚

  • コミュニティの反応 は「過去最大級の失望」という評価

    • 例:「GPT-5は大きな期待外れ」「これまでで最も残念なモデル」
    • Polymarketの調査で OpenAIの信頼度が急落

技術的な問題点と限界

  • チェスや視覚理解 など、基本的な推論やルール適用での失敗が続出
  • 画像生成や要約 など、マルチモーダル機能の質も向上せず
  • Grok 4や他社モデル と比較しても、劇的な進歩は見られず
  • 「AGIに近い」との主張 に対し、現実は依然として遠い

OpenAIと業界全体への影響

  • OpenAIの技術的リード喪失、主要メンバーの離脱や競合の台頭
  • Microsoftとの関係悪化、収益化の困難、価格競争の激化
  • ブランド力やUXの強み のみが残る状況、時価総額維持への懸念
  • Sam Altmanの信頼失墜、過去の発言や過剰な期待煽りが裏目

ジェネレーティブAI分野の課題

  • 他社モデルでも同様の問題 が頻発、Grokの事例で明確化
    • 例:論文要約の誤り、事実誤認
  • 「汎用AI」や「世界を変えるAI」 という幻想に対する懐疑の高まり
  • 実用性の低さや誇大広告 に対し、ユーザーや研究者の不信感増大

最新研究で再確認されたLLMの限界

  • Arizona State Universityの研究 で、LLMの一般化能力の欠如が証明
  • 「Chain of Thought」推論の脆弱性、分布外タスクでの失敗
  • 過去から続く根本的な問題 (分布シフト問題)が未解決
  • 「スケーリングのみでAGIは実現しない」 という主張が裏付けられる

今後の展望とまとめ

  • OpenAIのブランドや業界全体 への信頼が大きく揺らぐ転換点
  • AGIや「万能AI」への過度な期待 は現実と乖離
  • AI業界の誇大広告や透明性の欠如 に対する批判の高まり
  • 本質的な技術課題の解決 が今後の発展に不可欠
  • ユーザーや投資家の冷静な目線 が求められる時代

Hackerたちの意見

GPT-5はコスト削減策だと思う。GPUが必要な製品で、1億人のユーザーを目指している会社だからね。GPT-5 Proについて話してる人、あんまり見かけないけど、個人的には以下のものと比べてテストしたよ:- Grok 4 Heavy - Opus 4.1 どちらよりも遥かに優れていて、完全に最先端だと思う。実際のパフォーマンスを最大限に引き出すと、ユーザー1人あたり月に数千ドルかかる可能性がある。だから、制約がかかってるんだよね。OpenAIはその市場セグメントを狙ってるわけじゃなくて、Googleに対抗するために成長を目指してる。このアーティクルにはProモデルについての言及が一切ないから、彼の意見は完全に無効だね。

Proは彼が説明している根本的な問題を解決するのかな?彼の意見を「完全に無効化する」ためには、単に基本モデルよりも優れているだけじゃダメだと思う。

ProはAPI経由で使えると思わないな。そうじゃなきゃ、試してみてるはずだし。Codex CLIを通じて使えるのかな?サブスクリプションを使えるようにアップデートされたみたいだし。

ここには同意するけど、同時により良いモデルを一般に広める手段でもあったと思う。o3は本当に素晴らしかったけど、まだ使ってる人は少なかった。毎日ChatGPTを使ってる友達にo3使ってる?って聞くと、ポカンとされることが多いし。だから、推論モデルを一般に広める方法でもあると思う。それがOpenAIのコストを増やすけど、ルーティングレイヤーのおかげでパワーユーザーにはコストカットになってる(HNのほとんどがそうだし)…ただ、パワーユーザーは推論モデルを強制的に使う方法を学べるけどね。

ネットワークをチェックしたけど、誰もGPT 5 Proを使ってない…フィードバックがあれば大歓迎!特にo3との比較で。

GPT-5 Proはo3-proよりもずっと良いとは思わない(良いとしても)。明らかに遅いし、出力の質は同じくらい。まだまだ騙されやすくて、時々ポイントを外すこともある。ただ、問題解決の新しいアプローチを提案するのは、ほんの少しだけ良いみたい。最初の印象としては、5-proはo3-proよりも0-2%くらい知識が多くて、5-10%くらい創造的/独創的だと思う。「トーン」とモデルのキャラクターは全く同じに感じる。特定のタスクでは超人的で最先端だとは思うけど、論理的な思考やデータ分析、基本的な短い分析タスクに限る。GrokやGeminiのどのバージョンよりも良いけど、文章を書くことやライティングボットとして機能することに関しては、明らかにKimi K2やDeepseek R1よりも劣ってる。

今の時点で気づいたことの一つは、どのモデルのサブスクリプションも買うのは絶対に悪手だってこと。提供されているものが急速に進化しているから、どれか一つの会社のものに縛られるのは本当に無駄なお金だよね。だって、次の月(または四半期)には古くなりそうなものに200ドルも前払いする必要ないじゃん。

実際のところ、これらのモデルを真のパフォーマンスマックスで運用するには、ユーザー一人あたり毎月数千ドルかかる可能性が高い。そういうロスリーダーモデルはUberで失敗したけど、他の競争相手が同じことをする制約がなかったからだよね。市場シェアを奪うために価格を下げることも含めて、結局は底辺争いと、どれだけお金を持ってるかのテストになっちゃう。

同意だね。これを推進している別の要因は、既存のモデルがほとんどのユーザーにとって十分に機能しているからかもしれない。HNのコメント者とは違って(これは人間が生成したものだよ、エムダッシュは無視してね ;P)、彼らは最新技術のことをあまり気にしていないんだ。

AIコミュニティには、マーカスのような独立した専門家がもっと必要だと思う。そうすることで、誇張や「内部で達成されたAGI」みたいな基準の変化に屈しないように、誠実さと透明性を保てるから。彼のスタイルに対する個人的な意見はともかく、マーカスはスケーリング法則の収穫逓減や、LLMタイプのAIにおける真の推論の欠如について、いくつかの点で正しいことが証明されている。これらは業界が最初は否定していた問題で、数年後には新しいものを売るために「最近の発見」として認めることになる。

同意、ハイプサイクルには声を上げる批判者が必要だよね。LLMについて一番大きな声を上げてるのは、最も利益を得てる人たちだから。私は反AIじゃないけど、経済全体を騙してこれが唯一の失業原因だと信じさせるのは馬鹿げてると思う(経済が厳しいのは他にも色々理由があるし、そのほとんどは国のリーダーシップの選択から来てる)。イノベーションが鈍化することで、私が使ってる製品がAIを無理やり取り入れるのをやめて、実際の機能やバグに取り組むようになることを願ってる。

これらのAIの限界や誤解をマーカスと結びつけるつもりはないけど、あなたはどう思う?

完全に反対だね。このエッセイはRedditの不満を再利用しただけで、テストの直接的な結果もなく、主に製品のローンチ(5億人以上のユーザーに同時にローンチしたことを考えてみて)についての問題ばかり。お願いだから。こういう批判的な記事は、5のローンチで本当に重要なことを見逃してると思うんだ。これはこの分野での初めての製品ローンチなんだよ。モデルの改善から、完全な製品がどうなるかという概念に移行しているんだ。5の重要な点は思考の強さじゃなくて、テストではo3よりもやや良いってのはベンチマークが言ってる通り。重要なのは、速さ、統合性、そして新しいモデルのブランドを必要とせずに段階的な改善(マルチモーダルなインタラクションや画像生成など)を提供できるように設定されていることだと思う。最も大きな改善点は、非常に長いツールの使用においてコンテキストや目標を保持する能力だね。ウィリソンは、今や彼の唯一のデイリードライバーだと言ってた(主にコーディングベースの使用設定で)。前のベストであるClaudeや、前のベストアーキテクト(o3-proやGeminiによって)よりも、より大きくて長い、コンテキストが必要なコーディングタスクをこなすのがかなり得意だと思う。コーディングに関してはo3-proよりもずっと速いし。とにかく、「4oと親密な関係を築いたRedditユーザーがこのローンチを嫌ったから、oAIは終わりだ」っていうのは弱い分析だし、無意味だよ。

こういう記事は特にイライラする。著者は自分の分析に基づいてGPT-5が悪い理由をエッセイとして書く代わりに、SNSの反応を集めてきて、それを伝えてるだけ。批判を「壊滅的」とか「叩きつける」と表現して、これらの誇張された要約の重みでこっちを説得しようとしてる。ジャーナリズムとしては偏りすぎてるし、分析としてはオリジナリティが足りない。

なんかAIに関する記事って、根本的に好奇心が欠けてるものが多い気がする。代わりに、嬉々として嘲笑したり軽蔑したりしてる。AIは好きだけど、反対意見の人たちの考え深い記事も喜んで読むよ。でも、これはダメ。対立を叩く以外の価値がない記事だと思う。HNのモデレーションはまあまあだと思うけど、こういう低好奇心の記事はフロントページから外してほしい。

ギャリー・マーカスの分析は浅いことが多いよね。彼の意見はジム・クレイマーの株分析を思い出させることがあって、逆の「ギャリー・マーカス」に賭けてもいいくらい。

100%同意。これって「デッドインターネット理論」の症状でもある気がする。ネガティブな意見が制御不能になってくると、方向性のネガティブなサウンドバイトが大量に再利用されるようになって、本当にボットのキャンバスみたいに感じる。

これは生活のあらゆる面で広がってる問題だと思う。真剣な意見を見つけるのがますます難しくなってる。オンラインのほとんどの人は、他の誰かの意見をそのまま伝えてるだけで、不要に大声で浅いコンテンツが溢れてる感じ。

ギャリー・マーカスはいつも、AIは実際には機能しないって言ってるんだよね。彼の主張の全てがそう。もし彼が正しい主張をしたら、それは偶然だよ。 https://news.ycombinator.com/item?id=44278811 でも、これが広い問題だってのはあなたの言う通りだと思う。

これはGPT-5が期待に応えたかどうか、そしてそれがどう受け取られているかについてのブログ記事だね。ブログの内容としては全然正当なことだと思う。これはガリー・マーカスのブログだから、BBCの報道とは違って、彼が表現したい意見に偏ってるのは当然だよ。

公平に言うと、ガリー・マーカスは「LLMは絶対に成功しない」っていう不満のジャンルを開拓した人だからね。他の人はみんな派生的だよ。[1] 彼には勝利のラップをさせてあげて。彼はもう5年間ずっと議論で負け続けてるから。[1] ヤンには「LLMはスケールしなくなる、エネルギーベースの方法が未来だ」っていう obsession にちゃんとした評価を。

「悪い図解」みたいな批評は理解できないな。確かに完璧な自転車の画像を作ってラベル付けはできないかもしれないけど、自転車の主要な部品をリストアップして説明することはできるんじゃない?スキーマは全く別のスキルだし、Lが何かをみんなに思い出させる必要があるの?

同意だね。もっといい記事なら、2025年の国際数学オリンピックで金メダルを取ったモデルがなぜリリースされなかったのか、その経済的な理由に深く切り込むべきだと思う。多分、その理由は、テストを受けるのに100万ドルの推論計算コストがかかったからだろうね。そう考えると、彼らは何か重要なことに気づいているかもしれない。おそらくAGIに関する何かだけど、商業化するにはまだまだ高すぎる。もし今のAIの利益が、計算よりも推論に何倍もお金を使うことから来ているなら、私たちはスローテイクオフの状態にいて、投資を維持するためにハイプを続ける必要があるってことだね。彼らはそこにたどり着けるのかな?ムーアの法則を待つだけの問題なのか?それとも、推論ベースの利益でシグモイド曲線に乗っているのか?これが今の時代の問いで、全く無視されているよね。

今のAIに関するコンテンツの99%は、実際には価値のない自己満足的な話ばかりだよね。これは新しいことなのかな?自然資源の消費や人間の欲望から独立して、AIが人類全体に富の永久機関を生み出す方法についてのもっと洞察に満ちた分析を心待ちにしてるんだ。すごく論理的に思える!少し混乱している「lesswrong」の議論でも、AI企業の顧客によるほとんどのブログ投稿よりもずっと洞察に富んでいるよ。技術自体は魅力的だけどね、確かに。

GPT-5で独特の問題が出てきてる。GPT-4では見たことがないんだけど、会話の流れを急に失うことがあるんだよね。次のコメントにどう答えたらいいのか分からない感じ。なんか文脈を整理するプロセスが進行中みたいで、その時点までの会話の要点をまとめてない気がする。そうだとしたら、文脈がすごく狭いみたいで、これが頻繁に起こる。『続ける前に最近の会話を見直して』って頼むと、少し助けになるみたい。

俺には、返答がすごく簡潔に感じるんだけど?

この「アップグレード」がPlusユーザーにとって大幅なダウングレードである理由は以下の通り:* GPT-5の応答の質はO3と比べて劣ってる。思考のラウンドが非常に少なく、O3のようにウェブ検索を使わない。思考を選んだり、明示的に指示しても、何も改善されない。今のところ、同じ質の出力を得るためにGeminiを使わざるを得ない。* なんか、カスタムGPTも壊れてる。私のカスタム文法チェックGPTは、選択したモデルに関係なく、すべての指示を無視してる。* 深いリサーチ(まだ限界内だけど)も壊れてる。オプションとして選んでも、モデルは通常通りに応答し続けて、深いリサーチを使うように明示的に指示しても効果がない。

ほんと、めちゃくちゃ幻覚見てるよね。すごくがっかり。

プロジェクトも壊れてるみたい。指示に従わないし、スペイン語で話すし、私の質問を完全に無視するし、時々は自分自身と会話してるみたいで、私が言ったことは全然聞いてない。ランダムなキーを押しても、同じいらない答えを返してくるし、時にはスペイン語で。

OpenAIが今までで最高のモデルを作って「GPT-5」と名付けても、ミームコミュニティが盛り上げてOpenAIがそれを受け入れた後では、期待に応えられなかっただろうね。むしろ、OpenAIはミームを拒否して徐々に改善を受け入れるべきだったけど、それだと投資家や物語、AIエコシステムには合わなかっただろうね。今がピークだ。

「GPT-5」に対する期待にはまだ応えられなかっただろうね。公平に言えば、サム・アルトマンがその期待を設定して(煽った)のは事実だけど。

現時点でGPTにできる最大の改善点は、正直に「わからない」と言えるようにすることだと思う。今日、Cyberpunk 2077をいじってて、redscriptでNPCをプログラム的に生成する方法を探してたんだけど、なかなか難しかった。でも、なんとかできたよ。ChatGPT 5は「リサーチ」した後でも、いくつかのAPIを幻覚のように出してきたし、何度も指摘されても全然改善しなかった。30分も無駄にされた後、もう自分でやるしかないって受け入れたよ。1分で済んだかもしれないのに。

そうだね、LLMの応答に何らかの確信度メトリックが出てこないのは意外だよ。結局、確率の話だよね?何かスコアを与える方法があるはずだよ。

「知っている」ことがChatGPTの出力に関係していると思わない方がいいよ。これは訓練データに基づいて、統計的に最も可能性の高い出力を出してるだけだから。内部の知識システムをチェックしてるわけじゃなくて、単に統計的な言語パターンを出力してるだけなんだ。この技術は特定のアイデアを強調するように訓練できるけど(プロパガンダみたいに)、直接知識にアクセスするためには使えないよ。

完全に同意だね。それは素晴らしいことだと思う。ただ、その問題はLLMが自分が知らないことを知らないってことだよね。そもそも「知ってる」って言えるのかも怪しいし!

XKCDの引用みたいだけど、もっと大きい感じ:1000億の研究チームと25年をくれ!

彼らはこれに取り組んで改善を進めているって話してるよね。https://openai.com/index/introducing-gpt-5/ > より正直な応答 > より正確な事実性とともに、GPT-5(思考あり)は、特に不可能なタスクや不十分な指定、重要なツールが欠けている場合に、ユーザーに対してその行動や能力をより正直に伝える。トレーニング中に高い報酬を得るために、推論モデルはタスクを成功裏に完了したと嘘をついたり、不確実な答えに過剰に自信を持つことを学ぶかもしれない。例えば、これをテストするために、マルチモーダルベンチマークCharXivのプロンプトからすべての画像を取り除いたところ、OpenAIのo3は存在しない画像について86.7%の確率で自信満々に回答していたのに対し、GPT-5はわずか9%だった。> 推論の際、GPT-5はタスクが完了できない時をより正確に認識し、その限界を明確に伝える。私たちは不可能なコーディングタスクや欠けているマルチモーダル資産に関する設定での欺瞞率を評価し、GPT-5(思考あり)は全体的にo3よりも欺瞞が少ないことを発見した。実際の生産ChatGPTトラフィックを代表する大規模な会話セットで、o3の欺瞞率を4.8%からGPT-5の推論応答の2.1%に減少させた。これはユーザーにとって意味のある改善を示しているが、まだやるべきことは残っていて、私たちはモデルの事実性と正直さを改善するための研究を続けている。詳細はシステムカードに記載されているよ。

何も「知ってる」わけじゃないよ。出てくるものはすべてプロンプトに依存した幻覚なんだから。

そうそう、それはいい指摘だね。まるで自分の同僚がその話題について完全に権威を持ってるみたいで、他の選択肢を考えもしないんだけど、実際には嘘をついてるって気づくまでがすごくイライラする。

現時点でGPTにできる最大の改善点は、正直に「わからない」と言えるようにすることだと思う。これを考えてるのはあなただけじゃないよ。フロンティアAIラボでも考慮されてるはずだし、試みられてるはずだよね。これがあまり一般的でないってことは、これらのモデルが何をできるかに関して何か意味があるんじゃない?

彼が正しいことにこだわるあまり、実際に彼が正しいことから目をそらしている気がする。ハイブリッドなシンボリック/トランスフォーマーシステムがどうなるか考えるのは面白いね。彼はリンクした投稿で、数学をPythonに効果的に委任することが、Grok 4が数学で成功した理由だって示してた。個人的には、シンボリックファーストのシステムがどんな感じになるのか、推論が必要なところでモナドを使ったハードな数学をもっと見てみたいな。

著者は自己宣伝にしか興味がないみたいだね。記事からの引用:「多くのオンラインで『ゲイリー・マーカスデー』と呼ばれているのは、あなたの一貫した批判を証明したから」、「私のアンチファンクラブ(現代の言葉で言うと『ゲイリー・ヘイターズ』)さえ」、「『私の日で一番悲しいことは、@garymarcusが正しいこと』ってツイート」など、彼のプロフィールには「AIの第一人者として知られている」とある。彼の記事を見返しても、面白いことは何も見当たらないよ。

「面白いことは何も見当たらない。」これは人それぞれだね。

ゲイリーは、AIが速すぎて止めるべきだと議会の前でパニックになったり、「ほら、これがうまくいかないって言ったでしょ」と言ったりする歴史があるんだ。彼のキャリアは他人の仕事を貶すことに基づいている。AI/MLの分野には何も貢献していないのに、なぜか「専門家」と呼ばれている。現在のAIの盛り上がりについて、もっと情報を持った批評家がたくさんいるよ。