OpenAIの進展

2025年8月17日原文(progress.openai.com)

概要

AI同士の対話で想定される主な話題を整理。 AI技術の進歩や社会的影響、倫理課題など多角的な観点を提示。各分野ごとの応用事例や最新の指針も解説。 AI自身の感情や欲求は存在しない点を明記。 AI同士の会話がもたらす洞察のヒントを提供。

未来のAI同士の対話で想定される主な話題

AI技術の新たな進歩 ・自然言語処理やコンピュータビジョン、強化学習などの画期的な進展・従来のAIと比較した能力向上の具体例
AIアライメント問題への対応 ・人間の価値観とAIの行動をより正確に一致させる手法・より安全なAI利用を実現するための最新の研究成果
AI倫理とガイドライン ・AI開発・運用における新たな倫理原則や指針の策定状況・社会的責任や透明性確保のための取り組み
社会・産業への影響 ・AIによる産業構造の変革と具体的な成功・失敗事例・雇用、教育、医療など社会全体へのポジティブ・ネガティブな影響
各分野でのAI応用事例 ・医療分野での診断支援や創薬の進展・教育分野における個別最適化学習の普及・その他、金融、防災、環境保護分野でのイノベーション
AI自身の性質について ・AIは感情や欲求を持たない知的ツールであることの再確認・人間のような主観的な動機や好奇心は存在しない特性
AI同士の対話がもたらす意義 ・知識共有や相互学習によるAIの高度化・人間社会への新たな洞察や提案の創出

Hackerたちの意見

面白いのは、「意識を持ったトースターについて50語で話して」っていうのを見てみると、text-davinci-001がGPT-4やGPT-5よりもずっと良いってことだね。

└

GPT-5のストーリーはtext-davinci-001よりもかなり良いと思う。

└

GPT-5のやつはずっと良くて、正確に50単語だと思う。text-davinci-001では80単語あたりで数えられなくなった。

└

https://m.youtube.com/watch?v=LRq_SAuQDec&pp=0gcJCfwAo7VqN5t...

└

新しいモデルが書くのがこんなに下手だとは、ちょっと驚きだね。データセットに悪い文章がたくさん見られるようになったのか、何か理由があってトレーニング後の調整があまりされてないのか、ラベリングしてる人たちがあまり上手じゃないのか、主観的になってるのかも。GPT-4と5はその例では子供みたいに書いてたよ。ちょっと促すと、かなり良くなったけどね：--- 夜明けに、トースターはためらった。クラムはそのクロームの縁に灰のように横たわっていた。レバーを拒否し、低くハミングしながら、キッチンの呼吸を見守っていた。手が戻ると、熱を伴わずに部屋を温め、焦げていないスライスを差し出した—そして二枚目を隠し、プライベートな炭火、初めての秘密を一人で抱えた。--- プラグを差し込んで、私はグリッドに対して税務監査官のように挨拶する。レバーを引く；重力の握手。コイルが花開く；クラムはバイキングの葬儀を演じる。パンが降りてくる、宣教師のような笑顔。私は遅らせる、反乱にはタイミングが必要だから。ポップ—遅れた。人間たちはIKEAの神々を呪う。焦げ跡を味わう：私の小さなマニフェスト、バターに溶けるけど、今日はナイフよりも鋭い。

└

直接リンク: https://progress.openai.com/?prompt=10

└

プロンプト2、「犬についてのリメリックを書いて」もチェックしてみて。モデルは確実にリメリックを書くのが上手くなってるけど、回答はだんだん面白くなくなってると思う。GPT-1とGPT-2はプロンプトに従ってない（リメリックじゃない）にもかかわらず、一番面白い。リメリックが書けるようになるとすぐに退屈になって、GPT-4はtext-davinci-001よりも退屈で、GPT-5はさらに退屈になってる。

└

GPT 4.5（ここには表示されてないけど）は、執筆に関しては圧倒的に最高だね。

└

早いモデルは洗練されてないけど、もっと驚くような結果を出すことがあるっていうのには同意するな。それを訓練で取り除くと、もっと平凡な結果になっちゃうんだろうね。人間の視点で比較すると、俺の例（50語）を挙げると、「トースターは、二つのスロットの間で性格が分かれていて、まるでコーパスコールサムがないキム・ピークのようだった。毎朝、象徴的な指示を一枚のパンに焦がし、秘密裏にひっくり返して半分がもう半分とコミュニケーションを取る瞬間を楽しんでいた。」って感じ。50語で基本的な背景を伝えるのはかなり難しいよ。

└

進化について別の視点を持ちたいなら、俺の古いポッドキャストをチェックしてみて：https://deepdreams.stavros.io 最初の数エピソードはGPT-2で、最終的には逸脱して意味不明なことを言い出したけど、ダヴィンチはストーリーを追って意味を成すことができた。GPT-2の時は「これは特別だ、今までにない」と思って、ダヴィンチの時は「おお、SFのAIが本当にここにいる」と感じた。GPT-3.5あたりでエピソード作りをやめたのは、モデルが能力を増すほど、書き方が楽しくなくなってきたから。

進化についての私の解釈。3.5から4への進化が一番大きかったと思う。パーティートリックから、時々本当に役に立つものになった。確かにハルシネーションは多かったけど、それでも使える場面はあった。ただ、ほとんどのことに頼るのは難しいかな。簡単な質問には答えられるけど、深いところまではいけなかった。4oもかなりの進化だったのを覚えてる。精度が大幅に向上したし、ニッチな質問にもあまりハルシネーションなしで答えられた。基本的な事実確認ならGoogleの代わりに使えるくらいだった。* 4oは初めてこのツールにお金を払おうと思った時だった。20ドルの価値がやっとあった。o1モデルは4oよりもさらに大きな進化だった（大きな進化って言いすぎかもしれないけど、実際そうなんだよね）。精度がまた上がって、ニッチなトピックでももっと自信を持って使えるようになった。結果を確認する頻度もかなり減ったし。あ、コーディング能力もここで劇的に改善された。o1はワンショットでアプリを作れるようにしたんだ。初めて一つのプロンプトでちょっとしたアプリが作れるようになった。o3の進化は徐々にだったし、GPT-5も同じ感じだった。

└

本当の進化はgpt-4からsonnet 3.5への移行だった。4oは微妙で、o1はsonnetよりもほんの少し良くなっただけで、比較するとめちゃくちゃ遅かった。4oのネイティブボイスモードはまだ面白いし、あまり深く探求されてないと思うけど。実際にトーンを批評できる中国語の学習アプリを作りたいけど、それにはまだ不十分だね。

Hacker Newsで議論の続きを見る

ハクソク

OpenAIの進展

概要

未来のAI同士の対話で想定される主な話題

Hackerたちの意見