世界を動かす技術を、日本語で。

GPT-5

概要

OpenAIが最新モデル GPT-5 を発表し、ChatGPTに搭載 全ユーザー が利用可能となり、専門知識や作業効率が大幅向上 カスタマイズ機能や音声機能 の改善、新しい学習モード追加 GmailやGoogle Calendarとの 連携機能 が導入 ビジネスや開発者向けにも 高度な新機能 を実装

OpenAI Summer Update:ChatGPTとGPT-5の進化

  • GPT-5搭載 でChatGPTが史上最速・最強・最も実用的なモデルへ進化
  • 全ユーザー に新しいChatGPTが開放、専門家レベルの知識提供
  • 数学・科学・金融・法律 など幅広い分野で高精度な回答
  • 必要に応じて 深い思考 を行い、より的確なサポートを実現
  • パーソナリティ選択 やチャットカラーのカスタマイズ機能追加
  • 音声認識・発話 の精度向上、話し方もカスタマイズ可能
  • Study mode で個人に合わせたステップバイステップ学習支援
  • Gmail・Google Calendar連携 によるパーソナライズ応答

開発者向け新機能

  • GPT-5 による最高レベルのコーディング・エージェントタスク対応
  • 最小限のプロンプトで 高品質なコードフロントエンドUI を生成
  • パーソナリティ・誘導性 の改善、ツール連鎖実行の向上
  • APIに ‘minimal’ reasoning‘verbosity’パラメータ を新規導入

ビジネス向け活用

  • GPT-5 はビジネス利用でも高い信頼性と業務効率化を実現
  • 複雑なタスクも ChatGPTが深く思考・適切なフォローアップ で推進
  • 従業員全員が 専門家レベルの成果 を得られる環境
  • Google Drive・SharePoint など社内ファイルやアプリ連携に対応
  • 既存の 権限管理 を尊重しつつ高品質な応答を提供
  • ChatGPT Team で即日利用可能、 Enterprise・Edu は8月14日提供予定

参考リンク

Hackerたちの意見

GPT5の公式リンク一覧

ライブストリームリンク: https://www.youtube.com/live/0Uu_VJeVVfo 研究ブログ記事: https://openai.com/index/introducing-gpt-5/ 開発者ブログ記事: https://openai.com/index/introducing-gpt-5-for-developers APIドキュメント: https://platform.openai.com/docs/guides/latest-model 自由形式の関数呼び出しドキュメント: https://platform.openai.com/docs/guides/function-calling#con... GPT5プロンプティングガイド: https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_g... GPT5の新しいパラメータとツール: https://cookbook.openai.com/examples/gpt-5/gpt-5_new_params_... GPT5フロントエンドクックブック: https://cookbook.openai.com/examples/gpt-5/gpt-5_frontend エンタープライズブログ記事: https://openai.com/index/gpt-5-new-era-of-work システムカード: https://openai.com/index/gpt-5-system-card/ 未来のOpenAIモデルと話せるとしたら、何を言う?: https://progress.openai.com/ コーディング例: https://github.com/openai/gpt-5-coding-examples

コーディング例のリンクは404エラーになってる。

ああ、抱きしめすぎて死んじゃった。編集: ライブストリームはこちら: https://www.youtube.com/live/0Uu_VJeVVfo

実際のレビュー: https://www.latent.space/p/gpt-5-review 俺のテストでは、gpt5は「ツールを使って考える」って感じで、「ツールを使う」だけじゃなかった。長期的なコーディングタスクではすごく強力になる(別の投稿で後で詳しく書くつもり)。具体的な例を挙げると、開発者ベータ版で(動画は後で公開される)、先週ずっとClaudeのコードが詰まってたタスクをやらせたんだ。同じプロンプトで、そしたら失敗のいくつかを記録するためにロギングを追加してくれて、追加したログから再実行を頼まれて、解決策を見つけたんだ。

なんて誤解を招くグラフなんだ、バットマン/アルトマン!学術的なベンチマークスコアはたった5%しか改善してないのに、バーを50%も高くしてる。

https://www.youtube.com/watch?v=0Uu_VJeVVfo

マーケティングコピーと現在のライブストリームは、ちょっと言ってることが同じに感じる。「良いから良い」って感じ。GPT-5がメジャーバージョンアップする理由についての説明がまだあまりないね。いつも通り、モデル(そしておそらくOpenAI全体)は出力の雰囲気チェックに依存するだろうね。

GPT-5がメジャーバージョンアップする理由についての説明がまだあまりないね。 その通り。動画が多すぎて、ページには実データやベンチマークが少なすぎる。simonwや他の人の雰囲気チェックを待つよ。

o3のパフォーマンスがGPT-4の価格で。かなり明らかだね。

今はLLMのオーディオファイル段階で、音場の改善やトーン、シビランスの減少について話してる人がいるね。

イントロページには、AIME 2025(ツールなし)、SWE-bench Verified、Aider Polyglot、MMM U、HealthBench Hard(これには詳しくないけど)などのベンチマークがいくつかあるよ。https://openai.com/index/introducing-gpt-5/ 発表時の評価としては普通のことだね。

今は、過去6ヶ月分の流行りのJavaScriptライブラリがトレーニングセットに入ってるから、「コーディングが得意」になったんだって。これって持続可能なの?

ハードコーディングタスク(主に古いコードベースのリファクタリング)をLLMに押し込んでる者として、前のモデルからあまり改善が見られない中で、品質のSカーブの改善率が減少してるのを感じてる。明らかに同じ品質を安く手に入れることは大きいけど、日々の出力の質はあまり感じられないな。

今ライブストリームを見てるけど、ベンチマークでの現在のモデルとの改善はすごく少ないね。これに向けて期待を抑えようとしてたみたいだけど、思ってたよりも改善が少ない。

誰かの意見を繰り返してるかもしれないけど、Sカーブを越えてきてる感じがする。

まぁ、新しいモデルを数ヶ月ごとに出すのがこういう結果になるってことだよね。もしOpenAIがGPT-4のリリース以来ほとんど黙ってて、今になって5を出してたら、ベンチマークの弱い成長について文句言う人はいなかったと思うよ。

少なくともかなり安くて、速そうだね。GPT-5-Proも発表されたけど、まだそのベンチマークは見てないな。

GPT-5がWebDev Arenaで1位になってる!Gemini 2.5 Proより75ポイント、Claude Opus 4より100ポイントも上だって。

サムが2年くらい前に、「マイクドロップ」リリースは避けたいって言ってたし、代わりに段階的な進歩を目指すって。これが初日だから、今後数ヶ月でさらに10〜20%の最適化ができるかもね。

大手AI企業はしばらく同じようなことを競ってきたけど、市場が彼らに差別化を強いることになると思うんだ。OpenAIが超高い知能レベルを目指すレースで負け始める一方で、コストを最適化して会話型や普通の知能、パーソナルアシスタントのユースケースを正当化することに焦点を当てるようになると思う。結局、ほとんどのユーザーは学校でカンニングしたり、恋愛相談したり、ビジネスメールを書いたりするために使いたいだけだからね。彼らにはIveの会社にも投資を続ける必要があるし。一方で、AnthropicやGoogleは対数的な知能向上にもっとリソースを使える余地がある。OpenAIからももっと賢いモデルが出てくるとは思うけど、現実的には給料を払わなきゃいけないし、現実が襲ってくるんだよね。

彼らのSWEベンチグラフ、どうなってるの? GPT-5の非思考は52.8%の精度と表示されてるけど、o3はもっと短いバーで、69.1%ってラベルが付いてる。そして4oはo3と同じバーだけど、30.8%ってラベルが付いてる…

バープロットが間違ってる、数字は合ってる。ダミープロットのまま更新されてないみたいで、数字だけ更新して漏れを防いでるのかな?ブログのプロットのスクリーンショット: https://imgur.com/a/HAxIIdC

GPT-5がそのチャートを生成したんだ。

プレゼンテーションに何かタイプミスがあるみたいだね。ランチサイトではここで正しく表示されてるし: https://openai.com/index/introducing-gpt-5/#:~:text=Accuracy... 「指示に従うこととエージェントツールの使用」のすぐ上の画像を見てみて。

彼らはバイブチャートを作ったね。

何年もかけてスライドの数字を四重チェックして、こんなミスを避けてきた身としては、これが一番注目されているスタートアップの大きな発表から出てくるのは本当に混乱する。役員や取締役会に出した小さなプレゼンでも、何度もエラーをチェックして、絶対に見逃すことはなかったのに。

AIで生成されたグラフっぽいね。 :)

うわ、imgurがひどいことになってる。モバイルで画像を開いてズームしようとしたら、いきなり別の「関連コンテンツ」が開いちゃった…!

これ、何これ?? https://imgur.com/a/5CF34M6

2番目と3番目のバーがダミーデータのプレースホルダーから更新されてないみたいだね、笑。

クロスポスティング: https://x.com/sama/status/1953513280594751495 「わあ、以前の大失敗だね--GPT-6はいつ?でもブログでは正しいよ。」ブログ: https://openai.com/index/introducing-gpt-5/

待って、今デモしてるベルヌーイ効果って間違ってるんじゃない?あれは「よくある誤解」だと思ってたし、翼は実際には空気が上を通る「長い道」で動いてるわけじゃなくて、もっと攻撃角が重要なんだよね(だから飛行機は逆さまでも飛べる)。実際、これってLLMにとって理想的な「トリック」な質問みたいだね。間違った内容がたくさん書かれてるから。最初はこれをデモして、もっと正しいことを知ってるって見せるのかと思ったけど、結局同じ誤解を繰り返してるだけみたい。あんまり良い印象じゃないね。

そう思った。飛行機はベルヌーイ効果で飛んでるわけじゃないんだよね: https://physics.stackexchange.com/questions/290/what-really-... らしいけど、私もどっちとも言えないけど。

関連リンク: https://xkcd.com/803/ それはさておき、どこかで読んだことがあるけど、いろんな効果の組み合わせで、ベルヌーイ効果もその一つらしい。でも、完全に納得できる説明は聞いたことがないな。空気を下に deflect するっていう説明は、子供の頃からずっと納得できたけど、それだけが理由だとは思えない。ベルヌーイ効果が人気の説明になった理由があるはずだし。紙を持って空気を吹くと上に上がるのもわかるし、やっぱり何かしら寄与してるんだよね。

うん、すごい速さでクリックして、スクロールバーを調整してたよね。何を表示しようとしてたのか、ちょっと混乱した。さらに、プロンプトには「Canvas」と「SVG」が含まれてたけど、ウェブ開発の経験がある自分からすると、これは確かに馴染みのある概念。でも、普通の中学生の宿題を手伝うために使う言葉とは思えないな。あんまり感心しない…個人的には、Claude 3.7が1年前に似たようなことをもっと良くやれたと思う。

https://www.youtube.com/watch?v=CT5oMBN5W5M

このプロットのy軸、どうなってるの? https://bsky.app/profile/tylermw.com/post/3lvtac5hues2n

本当にリアルだとは思わなかった、笑

これ、めっちゃ面白い!

どこにでもバカがいるな。これ作った人はいい給料もらってるに違いない。

おそらくAIが生成したものだね。

プレゼンが急いで作られたか、最後の瞬間に作られたように見える。全体のプレゼンで最初のプロットとしてこれを見るのは本当に悪い印象。あと、Opus 4.1との比較も見たかったな。編集: Opus 4.1のスコアは74.5%だよ。https://www.anthropic.com/news/claude-opus-4-1 これだと、Anthropicがこの重要なベンチマークでリーダーでいるためにアップグレードを出したように聞こえるね。

ChatGPT5: 「飛行機の翼(エアフォイル)について、上面は曲がっていて、下面は平らです。翼が前に進むと、上面の空気は同じ時間内により遠くを移動しなければならない -> それで速くなり -> 上面の圧力が下がります。下面の空気は遅く動く -> 下面の圧力は高くなります。圧力差が上向きの力、つまり揚力を生み出します。」この翼の仕組みの説明、完全に間違ってない?空気が上の距離を同じ時間でカバーするように強制されるわけじゃないし、実際にはそうなってない。https://www.cam.ac.uk/research/news/how-wings-really-work こんなミスを最初のデモに使うのは非常に奇妙だし、しかもそれが博士レベルの話をしているときに。

それにしても、その例を使うとは驚きだね。正しい(博士号レベルの)返答は、拒否するか、もっと良い説明に誘導することだったはず。

そうだね。でも、トレーニングデータの中で一番よくある答えだと思う…。

うん、説明が浅すぎて、一見正しいように見えるから、あまり理解してない人を騙しちゃうよね。あの質の低い図を言及せずに通過させたのはどうかと思うし、前のモデルと比べてそんなに良くなったようには見えなかった。

そう、完全に間違ってる。これが有効な説明なら、平面翼は揚力を生み出せないことになるけど、実際には生み出せるよ。(生み出せる。)出典:航空機設計の博士号

デモ中に急に流れが崩れちゃって、空気の流れのラインが完全に壊れた。左から右に動く点がいくつかあるだけで、表面の角度を変えても空気の流れに視覚的な違いは全くなかった。

翼が機能する理由の説明、完全に間違ってない?これはLLMだから、「間違い」って概念は当てはまらないよ。理解が必要だからね。この説明はかなり「あり得る」もので、例として使われたことがその証拠だよね…

これは非常に有名な誤解の例だね。航空工学については何も知らないけど、「等時通過の誤謬」には結構詳しいよ。

それが作った「デモ」もひどかったよ。NACA 4412とかのシミュレーションをしてたら、感心したかもしれないな。

あなたのリンクには、圧力差が理由で、曲率が重要だって書いてあるよね:> 「実際に揚力を生むのは、空気の流れに形を導入することで、流線を曲げて圧力の変化を引き起こすことです。上面は圧力が低く、下面は圧力が高くなります」と、工学部のバビンスキーが説明しました。「これが、帆のような平らな表面が揚力を生む理由です。ここでは、両側の距離は同じですが、張ったときにわずかに曲がっているので、翼のように機能します。言い換えれば、揚力を生むのは曲率であって、距離ではありません。」だから、この回答は「正しいけど不完全」か「正しいけど単純化されている」と言えるね。流体力学の博士が専門家の前では一つの説明をするけど、子供たちの前では別の言い方をする場合があるってことだね。

極めて一般的な誤解だね。NASAもそれが間違っていることについてのウェブサイトを持ってるよ。 https://www.grc.nasa.gov/www/k-12/VirtualAero/BottleRocket/a...

システムカードによると: https://openai.com/index/gpt-5-system-card/ > GPT‑5は統一システムだって… うん > …ほとんどの質問に答える賢くて速いモデル、難しい問題のための深い推論モデル、会話のタイプや複雑さ、ツールのニーズ、明示的な意図に基づいてどのモデルを使うかをすぐに決めるリアルタイムルーターがあるって。だから、実際には統一システムじゃなくて、そう見せかけてるだけなんだよね。単一の大きなモデルをトレーニングしてるわけじゃなくて、特別なサブモデルを開発して、それを別のモデルでごまかそうとしてる感じ。これは、エンドツーエンドのトレーニングが高すぎてできなくなったときにやることだよ。

たくさんの小さな専門モデルがいいと思うし、もしそれをやってるなら良いことだね。

関連スレッド: GPT-5 システムカード [pdf] - https://news.ycombinator.com/item?id=44827046

400,000コンテキストウィンドウ > 128,000最大出力トークン > 入力 $1.25 > 出力 $10.00 出典: https://platform.openai.com/docs/models/gpt-5 もしこれが独立したニードルインヘイスタックと遵守評価でうまくいけば、このコンテキストウィンドウだけでGPT-5はGemini 2.5 ProやClaude Opus 4.1と非常に競争力があると思う。出力がo3-proと大きな改善がなくてもね。出力の質が主要な競合と同等かそれ以上になれば、OpenAIにとって本当に大きな前進になるだろうね。

[遅延]