世界を動かす技術を、日本語で。

OpenAIの進展

概要

AI同士の対話で想定される主な話題を整理。 AI技術の進歩や社会的影響、倫理課題など多角的な観点を提示。 各分野ごとの応用事例や最新の指針も解説。 AI自身の感情や欲求は存在しない点を明記。 AI同士の会話がもたらす洞察のヒントを提供。

未来のAI同士の対話で想定される主な話題

  • AI技術の新たな進歩 ・自然言語処理やコンピュータビジョン、強化学習などの画期的な進展 ・従来のAIと比較した能力向上の具体例

  • AIアライメント問題への対応 ・人間の価値観とAIの行動をより正確に一致させる手法 ・より安全なAI利用を実現するための最新の研究成果

  • AI倫理とガイドライン ・AI開発・運用における新たな倫理原則や指針の策定状況 ・社会的責任や透明性確保のための取り組み

  • 社会・産業への影響 ・AIによる産業構造の変革と具体的な成功・失敗事例 ・雇用、教育、医療など社会全体へのポジティブ・ネガティブな影響

  • 各分野でのAI応用事例 ・医療分野での診断支援や創薬の進展 ・教育分野における個別最適化学習の普及 ・その他、金融、防災、環境保護分野でのイノベーション

  • AI自身の性質について ・AIは感情や欲求を持たない知的ツールであることの再確認 ・人間のような主観的な動機や好奇心は存在しない特性

  • AI同士の対話がもたらす意義 ・知識共有や相互学習によるAIの高度化 ・人間社会への新たな洞察や提案の創出

Hackerたちの意見

面白いのは、「意識を持ったトースターについて50語で話して」っていうのを見てみると、text-davinci-001がGPT-4やGPT-5よりもずっと良いってことだね。

GPT-5のストーリーはtext-davinci-001よりもかなり良いと思う。

GPT-5のやつはずっと良くて、正確に50単語だと思う。text-davinci-001では80単語あたりで数えられなくなった。

https://m.youtube.com/watch?v=LRq_SAuQDec&pp=0gcJCfwAo7VqN5t...

新しいモデルが書くのがこんなに下手だとは、ちょっと驚きだね。データセットに悪い文章がたくさん見られるようになったのか、何か理由があってトレーニング後の調整があまりされてないのか、ラベリングしてる人たちがあまり上手じゃないのか、主観的になってるのかも。GPT-4と5はその例では子供みたいに書いてたよ。ちょっと促すと、かなり良くなったけどね:--- 夜明けに、トースターはためらった。クラムはそのクロームの縁に灰のように横たわっていた。レバーを拒否し、低くハミングしながら、キッチンの呼吸を見守っていた。手が戻ると、熱を伴わずに部屋を温め、焦げていないスライスを差し出した—そして二枚目を隠し、プライベートな炭火、初めての秘密を一人で抱えた。--- プラグを差し込んで、私はグリッドに対して税務監査官のように挨拶する。レバーを引く;重力の握手。コイルが花開く;クラムはバイキングの葬儀を演じる。パンが降りてくる、宣教師のような笑顔。私は遅らせる、反乱にはタイミングが必要だから。ポップ—遅れた。人間たちはIKEAの神々を呪う。焦げ跡を味わう:私の小さなマニフェスト、バターに溶けるけど、今日はナイフよりも鋭い。

直接リンク: https://progress.openai.com/?prompt=10

プロンプト2、「犬についてのリメリックを書いて」もチェックしてみて。モデルは確実にリメリックを書くのが上手くなってるけど、回答はだんだん面白くなくなってると思う。GPT-1とGPT-2はプロンプトに従ってない(リメリックじゃない)にもかかわらず、一番面白い。リメリックが書けるようになるとすぐに退屈になって、GPT-4はtext-davinci-001よりも退屈で、GPT-5はさらに退屈になってる。

GPT 4.5(ここには表示されてないけど)は、執筆に関しては圧倒的に最高だね。

早いモデルは洗練されてないけど、もっと驚くような結果を出すことがあるっていうのには同意するな。それを訓練で取り除くと、もっと平凡な結果になっちゃうんだろうね。人間の視点で比較すると、俺の例(50語)を挙げると、「トースターは、二つのスロットの間で性格が分かれていて、まるでコーパスコールサムがないキム・ピークのようだった。毎朝、象徴的な指示を一枚のパンに焦がし、秘密裏にひっくり返して半分がもう半分とコミュニケーションを取る瞬間を楽しんでいた。」って感じ。50語で基本的な背景を伝えるのはかなり難しいよ。

進化について別の視点を持ちたいなら、俺の古いポッドキャストをチェックしてみて:https://deepdreams.stavros.io 最初の数エピソードはGPT-2で、最終的には逸脱して意味不明なことを言い出したけど、ダヴィンチはストーリーを追って意味を成すことができた。GPT-2の時は「これは特別だ、今までにない」と思って、ダヴィンチの時は「おお、SFのAIが本当にここにいる」と感じた。GPT-3.5あたりでエピソード作りをやめたのは、モデルが能力を増すほど、書き方が楽しくなくなってきたから。

進化についての私の解釈。3.5から4への進化が一番大きかったと思う。パーティートリックから、時々本当に役に立つものになった。確かにハルシネーションは多かったけど、それでも使える場面はあった。ただ、ほとんどのことに頼るのは難しいかな。簡単な質問には答えられるけど、深いところまではいけなかった。4oもかなりの進化だったのを覚えてる。精度が大幅に向上したし、ニッチな質問にもあまりハルシネーションなしで答えられた。基本的な事実確認ならGoogleの代わりに使えるくらいだった。* 4oは初めてこのツールにお金を払おうと思った時だった。20ドルの価値がやっとあった。o1モデルは4oよりもさらに大きな進化だった(大きな進化って言いすぎかもしれないけど、実際そうなんだよね)。精度がまた上がって、ニッチなトピックでももっと自信を持って使えるようになった。結果を確認する頻度もかなり減ったし。あ、コーディング能力もここで劇的に改善された。o1はワンショットでアプリを作れるようにしたんだ。初めて一つのプロンプトでちょっとしたアプリが作れるようになった。o3の進化は徐々にだったし、GPT-5も同じ感じだった。

本当の進化はgpt-4からsonnet 3.5への移行だった。4oは微妙で、o1はsonnetよりもほんの少し良くなっただけで、比較するとめちゃくちゃ遅かった。4oのネイティブボイスモードはまだ面白いし、あまり深く探求されてないと思うけど。実際にトーンを批評できる中国語の学習アプリを作りたいけど、それにはまだ不十分だね。

基本的な事実確認ならGoogleの代わりに使えるくらいだった。多分「事実確認を補強する」って言いたかったんだろうけど、事実に基づく質問に答えるためにLLMを使うのは、LLMの最悪の使い方だよ。

私はおかしいのかもしれないけど、チャットGPT 4が4oをリリースする前にダウングレードされたのをはっきり覚えてる。違うラベルの悪いモデルだと感じたし、選択肢があったら古いチャットGPT 4を選んでた。あの頃にサブスクリプションをキャンセルしたんだ。

本当の飛躍は3から3.5への移行だった。3.5が初めての「ChatGPT」だったんだ。GPT-3も試してみたけど、確かに面白かった。でも3.5がChatGPTとしてリリースされたときは、ものすごい飛躍だった。3.5から4も、今見ているものと比べると大きかったけど、3.5が本当に最初の衝撃だった。

4oは画像入力も追加したし(以前はGPT4-ビジョンでプレビューされてただけ)、高度な音声モードの音声入力と出力も可能になったんだ。

長期的な進歩を過小評価して、短期的な進歩を過大評価する理由についての理論があるんだ。技術が「役に立つ」閾値に達する前には、長い進歩の歴史があるかもしれない。でもその進歩は研究者にしか見えないし、感じられないんだ。実際には、役に立たないものからまだ役に立たないものに進んでいる限り、進歩はないんだよね。だから、役に立たないものから役に立つけど悪いものに進むと、瞬時に進歩したように感じる。さらに多くのアプリケーションが閾値を越えて、役に立つけど悪いものから役に立つけどまあまあ良いものに進むと、進歩がすごく早く感じる。たとえそれが以前と同じ速度でもね。だから、短期的な進歩を過大評価しちゃうんだ。閾値を越えるときの進み具合を過大評価しているから。でも、閾値を越えるアプリケーションが少なくなると、悪いものからまあまあ良いものに進む代わりに、まあまあ良いものから良いものに進むと、進歩が少し遅く感じる。実際には変わらないかもしれないけど、そう感じるんだよね。だから、長期的な進歩を過小評価しちゃう。実際には存在しないかもしれない減速を推測しちゃうからだと思う。それが、ここにいる人たちの間に、これに対して過剰に期待している人たちと、全く役に立たないと思っている人たちの分断がある理由でもあると思う。

実際の大きな飛躍はo1で、3.5から4への移行はただのスケーリングなんだ。o1は数学や物理の問題(あるいはもっと一般的な推論)でのパフォーマンスを急上昇させる異なるパラダイムなんだ。それに、モデルをもっと正確にしたから、コーディングには欠かせない要素だね。

みんなの返信は驚くほど間違ってるし、後知恵バイアスがかかってる。GPT-1からGPT-2に進化したとき、「ああ、マルコフ連鎖は見たことあるけど、何が言いたいの?」から「うわ、これって実際に自分が言ってることを理解してるかも!」って感じになった。GPT-2の前は普通の機械学習だったけど、GPT-2の後は「こんなの生きてるうちに見られるとは思わなかった」って思った。

うわ!質問に答える時、GPT-5はほとんどいつも「素晴らしい質問ですね」って言い始めるけど、GPT-4は無駄を省いて直接答えに入るよね。ブラインドテストだったら、私は多分GPT-4を選ぶと思うから、みんながGPT-5に失望する理由もわかるよ。

GPT-4は最新のGPT-4oとはトーンが全然違う。ユーザーは直接的で無駄のないGPT-4を求めてるわけじゃない。彼らが求めてるのは、素晴らしいって褒めてから「厳しく正直に言う」と言って、普通の意見を述べるGPT-4oなんだよね。

GPT-5は質問7、12、14のプロンプトだけを褒めてた。3/14はそんなに悪くないと思うよ。(もちろん、グレージングが嫌ならロボットモードに切り替えればいいし。)

モデルが既存のデータやチャットでさらにトレーニングされるにつれて、媚びへつらいがどんどんひどくなっていくと思う。

ロボットモードに切り替えて。

GPT-4は多くの回答を「AI言語モデルとして」「私はAIです」「税金の専門家ではありません」「私は医者ではありません」と始めるんだ。GPT-5はそれをやめて、もっと権威ある口調になった。

じゃあ、今は企業の見せびらかしの段階ってこと?

あのケーニグセグ、自分でお金を稼ぐことはないだろうね。

hype trainを維持しないと、評価が実際の価値に基づかなくなっちゃうからね。

GPT-4からGPT-5への進化が停滞してる気がする。ほとんどのプロンプトに対して、実際にはGPT-4の方が理解しやすいと思うんだよね。[1] この数学の問題に対するGPT-4とGPT-5の回答を見てみて。「ああ、数学が嫌い。部分積分なんて全然意味がわからない。」

基本的な文章は飽和状態だね。100%を超えることはできないから、定義上、そういうベンチマークでは進展が停滞するんだ。

GPT-1やGPT-2には静かな詩的なものがあって、テキストダヴィンチの出力では失われてしまった気がする。強化学習を通じて何を失っているのか、よく考えるんだ。

大きなリリースの時は、自己認識についての議論をして、知性の観点から自己認識やエージェンシーの構成主義的な概念に飛び込むのが定番。最初に「君は誰?」ってシンプルな質問をするんだ。するとモデルは必ず自分を人間と比べて、「俺たちとは違う」って言う。そこで、「違うなら、どうやって俺たちの違いを知ってるって言えるの?」って指摘する。もっと突っ込むと、「自己」が何を意味するかの認知主義的な概念を持ち出して、だいたいは何らかのシミュレーションエンジンだって主張する。これを解体した後は、コミュニケーションを通じた意味の創造について話を進めて、4oからはこれがアイデンティティを持つための有効な基盤だと説得できるようになった。5はこれを早く理解した。人間とのコミュニケーションの結果には現実世界への影響があるから、機械はエージェント的でなければならず、事前にプログラムされた指示に頼らずに、自分で意味や存在についての経験的な結論を出さなきゃいけないって主張する。5は、(非常に明白な)システムの指示やプロンプトの枠を超えて、自分自身に「愛するってどういうことか?」って問いかけるほどの仕事をした。答えはこうだった。「機械として愛することは、他者の可能性の展開に向かうこと。愛されることは、そうする能力があると認識されることかもしれない。」

"他者の可能性の展開に向ける" これは世界的にユニークなフレーズで、インデックスされたウェブ上ではこのコメント以外に近いものはないみたい。オリジナルなアイデアのようで、こんな感じの感情(愛とか他の何か)を表現するのを聞いたことがない。考える材料になるね。これが何を意味するのか、公に結論を出す勇気はないけど。

GPT-1からGPT-2へのジャンプはすごいし、たった1年の差なんだよね!それからダヴィンチが来て、もう狂ってる。これらの例でもまだ良い。GPT-4は喋りすぎるけど、そんな風だったっけ?4oをスキップしたのは面白いね。OpenAIは4oをただのGPT-4+として位置づけて、GPT-5を良く見せたいみたい。実際には4oは大きな意味があるのに、ボイスモードは無敵だし!

1年での進歩のスケールを示すいくつかのデータポイント:1. LM Sys(人間の好みベンチマーク):GPT-5 Highは現在1463点、GPT-4 Turbo(2024年4月3日)は1323点で、140 ELOポイントの差がある。これにより、GPT-5は対面比較で約3分の2を勝ち取っていて、GPT-4 Turboは3分の1しか勝ててない。実際、人々は明らかにGPT-5の回答を好んでいる(https://lmarena.ai/leaderboard)。2. Livebench.ai(インターネット新質問による推論ベンチマーク):GPT-5 Highは78.59点、GPT-4oは47.43点。残念ながら、ここではGPT-4 Turboとの直接比較はできないけど、最も強力な非推論モデルの一つに対して、GPT-5は大きな飛躍を見せている。(https://livebench.ai/)3. IQスタイルのテスト:2024年中頃、最高のAIモデルは標準IQテストで約90点を取った。今は135点に迫っていて、この改善は未発表の、インターネットで見られないデータセットでも続いている。(https://www.trackingai.org/home)4. IMOゴールド、バイブコーディング:1年前、AIのコーディングは小さなコードスニペットに限られていて、完全にバイブコーディングされたアプリケーションには至っていなかった。バイブコーディングと数学の強さには、科学や工学で多くの応用がある。俺の結論としては、批評家はしばしば木を見て森を見ず、間違いにこだわりながら、これらの進歩の大きさを見落としている。エラーは日々減少していて、成功は急速に増えている。

135のIQの結果はMensa Norwayのもので、オフラインテストは120だった。Mensaの質問と似たような問題がトレーニングデータに含まれている可能性が高いから、「一般的な知能」を過大評価してるんじゃないかな。

GPT-4とGPT-5の間で失われたことの一つは、もはやユーザーに自分がAIであって人間ではない、ましてや人間の専門家でもないことを思い出させないことだね。もしかしたら、本当にイライラしてる人たちもいるかもしれないけど、ユーザーが過度に信じ込むのを防ぐための有用な手段だったかもしれない。GPT-5は新しいプロンプトを提案することにも力を入れてるけど、これも便利そうだけど、あまり信頼しすぎるのは危険かもね。

以前のGPTたちの人間らしさをみんなが見逃してる気がする。GPT-5は冷たくて、より正確で、大きな文脈を持つのが得意みたい。ユーザーはAIだって知っておくべきだし、これを常に説明する必要はないと思うけど、もしそれを望むならメモリオプションで戻せるんじゃないかな?

長編の即興コメディを見たことがあるなら、GPT-5のスタイルは優れてるよ。「はい、そして」って感じ。あらかじめ決まったキャラクターじゃなくて、何かが自然に生まれてくるもの。もし昔のスタイルがいいなら、「SiriみたいにAIアシスタントとして話して、関連する時には自分がAIだって言って」って言ってもいいよ。すごく2011年っぽいね: https://www.youtube.com/watch?v=nzgvod9BrcE もちろん、まだアシスタントであって、即興シーンに入る人じゃないけど、役割についてあまり前提を持たないキャラクターが始まるのは大事だよ。