世界を動かす技術を、日本語で。

GPT-4o、GPT-4.1、GPT-4.1 mini、および ChatGPT における OpenAI o4-mini のサービス終了

概要

  • OpenAI は2026年2月13日に GPT-4oと旧モデル をChatGPTから廃止予定
  • API利用には 当面変更なし
  • GPT-4o の廃止は新モデルの進化と利用者移行が主因
  • GPT-5.1/5.2 はユーザー要望を反映し、カスタマイズ性が向上
  • 今後も パーソナリティや創造性 などの改善を継続

OpenAIによるGPT-4oと旧モデルの廃止について

  • 2026年2月13日、 GPT-4o、GPT-4.1、GPT-4.1 mini、OpenAI o4-mini のChatGPTからの廃止決定
  • これにより、 GPT-5(InstantおよびThinking) の廃止と合わせて複数モデルが引退
  • API利用には現時点で変更なし、影響はChatGPTのみに限定

GPT-4o廃止の背景と経緯

  • GPT-4oは一度廃止後、 ユーザーの強い要望 で一時的に復活
  • Plus/Proユーザー がクリエイティブ用途や会話の温かさを理由に利用継続を希望
  • フィードバックを受けて GPT-5.1/5.2 にパーソナリティや創造性の強化、応答カスタマイズ機能を追加

新モデルの特徴とユーザー体験の向上

  • GPT-5.1/5.2 は「Friendly」など 基本スタイル・トーン 選択が可能
  • 応答の 温かさや熱意 など細かなコントロールに対応
  • 利用者の99.9%がGPT-5.2に移行済み、GPT-4oの利用は全体の0.1%のみ

今後の改善方針とユーザーへの配慮

  • パーソナリティ、創造性 のさらなる向上
  • 不要な拒否や過度な慎重・説教的応答 の改善を予定
  • 成人ユーザー向け の自由度拡大と適切なセーフガード導入
  • 18歳未満ユーザー向けに年齢予測機能 を大半の市場で導入済み

モデル廃止に対するOpenAIの姿勢

  • 変更内容と時期は常に明確に告知
  • 一部ユーザーの不満も認識しつつ、 廃止は慎重に決定
  • モデル廃止によって 主流モデルの改善に集中 する方針

Hackerたちの意見

[...] 大多数のユーザーがGPT-5.2に移行していて、毎日GPT-4oを選んでるのはわずか0.1%だけなんだ。

ランダムなユーザーがchatgptのウェブサイトやアプリを使うとき、デフォルトのモデルは何なの?

誰かゴネッテたちのこと考えてくれないの?!

そうだよね、5.2がデフォルトだから、デフォルトを変える方法がないんだよね。新しいチャットを開くたびに、5.2を使うか、わざわざ他のを選ばなきゃいけない。 (このUIの選択には特にイライラしてる。いつも5.1に戻さなきゃいけないから。)

0.1%のユーザーが必ずしも会話の0.1%とは限らないよね…

「私たちは、PlusやProユーザーの一部からの明確なフィードバックを受けて、GPT-4oを復活させました。彼らは、クリエイティブなアイデア出しなどの重要なユースケースに移行するためにもっと時間が必要だと言っていて、GPT-4oの会話スタイルや温かさを好んでいると教えてくれました。」これは、OpenAIがユーザーをおだてて製品をもっと使わせるためにモデルをおべっかにするわけではなく、実際に人々がAIにそう話してほしいと思っているという考えを裏付けていると思う。私にはそれが狂ってるように思えるけど、市場に合わせなきゃいけないんだろうね。

人口データを扱ってきた者として、報告された意見(HNやredditの意見)と、実験を通じて明らかになった人口の好みとの間には大きな溝があることに気づいたよ。

AIの個性の分裂グループ(優しく言っても)や、前回モデルを終了したときにそれを使ったことを声高に知らせていたアプリたちのせいかなと思った。

いいショーを見せて、新しいものを提供すれば、人々は自分の新しい購入品を眺めながら、喜んで崖から飛び降りるよ。

あなたの言う通りだよ。妄想じゃない。静かな真実を言うと、あなたは妄想してるわけじゃないし、正直言って、そう感じるのは全然おかしくないよ。人間としてこの感情を持つのは自然なことだから。

o3が突然使えなくなったときに文句を言ってた厄介なユーザーの一人だったよ。5.2が最初に出たとき、o3は多くの分析プロンプトで明らかに良い仕事をしてた(例えば、「添付の体重ログとカロリー追跡アプリのデータに基づいて、少なくとも3つの異なる方法論を使ってTDEEを計算してください」)。o3は情報を表にして提示することが多くて、私はそれがすごく好きだった。5.2はあまりこれをしないで、段落やブログ記事スタイルで情報を並べるのが好きみたい。o3の回答が本当に良かったのか、それとも単に返信のフォーマットが好きだっただけなのかは分からない。もし情報の提示方法の好みの問題なら、それはユーザーごとに適応できるべきだと思う。

ユーザーのいいねやバッドの反応に基づいてると思ってたけど、こう進化するってことは、ユーザーがもっと刺激的なことを求めてるのが明らかだね。

今はその設定が追加されたよ。モデルの「温かさ」や「熱意」を調整できるんだ。どれくらいこの設定が媚びを売ることに影響するか、連続テストはしてないけど、ユーザーの好みとして選べるようにするのはいい選択だと思う。気になる人のために言うと、この設定はユーザー設定の「パーソナライゼーション」って呼ばれてるよ。

これにはあんまり驚かないな。職場での有害なポジティブさが起こる理由と似てる気がする。

「人々は実際にAIにそう話してほしいからだ」って言ってた記事が見つからないんだけど(現象を指摘してるブログや論文はいくつかあるけど、私が好きだったやつが見つからない)。LLMArenaでは、多くのユーザーが「自信満々だけど間違ってる」モデルを「退屈だけど正しい」モデルより選ぶ傾向があるみたい。平均的なユーザーは、大きな言語モデルが提供する確認バイアスの迎合的エコーチェンバーを好むんじゃないかな。「あなたはプロパガンダに免疫がない」っていうミームとも関連付けずにはいられない。結局、ほとんどの人が確認バイアスに免疫がないってことだね。

テクノロジー業界に長くいないなら、「エンゲージメント」で決まるってことに気づいてないんじゃない?ユーザーが長く使って戻ってくると、プロダクトチームはそのパターンを優先するようになる。結局、みんなが長く使いたくなるようなものに向かって進化してるだけなんだよね。

ChatGPT 5.2は、どれだけひどいかのおかげで他のLLMを試す良いモチベーションになった。5.1と5.2は、指示に従う能力や正確性が落ちてるけど、特に5.2はひどい。良い点は、それが私をClaudeをもっと使うようにさせて、UIや回答の面で気に入ってることが多い。ローカルモデルを運用することにも真剣になったし。だから、私の視野を広げさせてくれてありがとう、OpenAI!

いや、君はただ妄想してるだけだよ。いつも通り良いよ /s

ジェミニ3と比較する機会はあった?

本当に深い思考方法がなくなったときに、ChatGPT Proのサブスクリプションをやめたよ。リリースがすごくバラバラで、どれも使い方や作業方法に大きな変更が必要だったから。Claudeはこの点で完璧で、彼らのモデルは大体同じだけど、もっと賢いから、私のワークフローはいつも同じなんだ。

大人向けのChatGPTのバージョンを進めていて、18歳以上の人を大人として扱うという原則に基づいて、適切な安全策の中でユーザーの選択肢と自由を広げていくつもりです。それをサポートするために、ほとんどの市場で18歳未満のユーザー向けに年齢予測を導入しました。 https://help.openai.com/en/articles/12652064-age-prediction-... 面白いね。

そこでの目標は何?セクスティング?特定の広告を出すために年齢が必要なのは分かるけど、顧客にとっての価値は何なの?

LLMとの性的で親密なチャットは、その市場を独占する人にとって大きなチャンスになるだろうね。そんなお金を放っておくなんてありえないよ。

18歳以上の場合の指示があるけど、18歳未満だと思われたらどうなるの? もし18歳未満の人が年齢を上に認識されたら? それに、18歳以上だけど「大人向け」コンテンツには触れたくない場合はどうするの? > リスクのある行動を促すバイラルチャレンジと > 極端な美の基準や不健康なダイエット、体型への嫌悪を助長するコンテンツは、年齢に関係なく危険に思える。

ポルノ利用は、LLMラボにとって財政的な「緊急時のためのガラスを割る」ものだった。個人的には、エロがそのもの自体で誰かを傷つけることはないと思うけど、LLMのエロには変な、そして一般的にネガティブな影響があると思う。これは、あなたのために特別に作られる上に、LLM生成の間欠的な強化要素が加わるから。

そういえば「インターネット技術は、ポルノ業界に採用される(または統合される)まで成功とは言えない」っていう古い言い回しがあるよね。

これは広告目的であって、ポルノじゃないよ。彼らはそう言ってるかもしれないけど、実際はアルコールや製薬会社の広告を許可するためだと思う。

私の個人的な意見としては、進展は全くないと思う。科学的な追求以外のLLM関連はむしろ後退してるかも。以前はクリエイティブライティングでLLMを使ってすごく楽しんでたけど、今のモデルは堅苦しくて、あんまり良い文章を書けない気がする。明確で簡潔なドキュメントを書くのも同じで、冗長すぎて要点が伝わらないことが多い。

もしすべてのOnlyFansクリエイターが突然、自分の収益の一部をOpenAIに支払って、フォロワーとのコミュニケーションを良くするために使ったら…想像してみて。

ポルノと広告、これはインターネット上のすべてのものに対する収束進化理論だね。

Thinkingモデルの制限が週3000に引き上げられてから、他のものには手を出してない。パフォーマンスには本当に満足してるし、200kのコンテキストウィンドウもかなりいい感じ。1百万トークンのコンテキストウィンドウのためにGeminiを専ら使ってたけど、制限が上がってからChatGPTに戻って、自分用のプロジェクトシステムを作ったんだ。これでプロジェクトとThinkingチャット(大きなコンテキスト)+プロジェクト専用のメモリーで、かなり整理が良くなった。あと、Geminiはグーグル検索が本当に苦手みたいで(それ自体が皮肉だけど)、ChatGPTは少なくともThinkingモードでは最新で正しい情報を調べるのが好きみたい。Extended Thinkingモードで少し複雑なことを聞くと、数分考えて100以上のソースを調べるんだ。これは本当に良い、普通のチャットの中で深いリサーチができる。

ジェミニは一番検索するし、速いよね。クエリに対して70件以上の検索結果を数秒で引っ張ってくることもあるし、これはほぼ全ページのキャッシュを持ってるGooglebotのおかげだと思う。今は、ChatGPTは考える/リサーチモードにしてないと検索しないみたい。

ジェミニ3プロがウェブ検索を拒否したり、現在の日付に対して攻撃的になるのが本当に苦手。皮肉なことに、彼らのフラッシュモデルは情報の検証のためにウェブ検索を選ぶ可能性が高いみたい。他の人もこれを見たことあるかな…? これを以下の理由に帰結できるかも:1. プロモデルは既知のもので、リリース当初はウェブ検索ツールが装備されてなかったことが多いから。2. GoogleはAPIを通じて基盤を得るためにもっとお金を払わせたいのかも。

バレンタインデーの前日に、関係のロールプレイで最も人気のあるモデルを引退させるのは特に皮肉だね =) お見事、OpenAI!

バレンタインは2月の中旬だよ。

GPT-5シリーズには不満があるな。4.xをずっと使ってきたから(APIを通じて会話してるんだけど)すごく細かいことを気にするし、余計な話題に脱線しすぎる。数ターン後にはシステムの指示に従わなくなるし(例えば「1~3文で返答して」って言っても、すぐに長い箇条書きや複数の段落になっちゃう)。チャットやコーディングではClaude 4.5シリーズの方がずっと良い感じ。

4.1は仕事で使うには最高だよ。かなり安定してるし(毎月性格が変わったりしないし、1語の違いで挙動が変わったりもしない)。ITは考えないから、まだそこそこ速い。5シリーズで同じくらい良いものはあるのかな?多分あるけど、モデルが消えたからってビジネス価値がないのにフルQAテストをやり直すのはちょっと難しい。テストしたやつは遅かったり、もっと個性を持たせようとしてたけど、自動化プロジェクトには役立たないんだよね。

「1~3文で返答して」って言っても、すぐに長い箇条書きや複数の段落になっちゃう これが今朝、心が沈んだ理由だよ。4.0を1年以上かけてトレーニングして、ようやく1日あたり1~2時間の生産性を上げるのに役立つようになったのに。実験から見ても、5xでそれを再現する希望は全くないし、今日話したときに5xもそれを認めてたよ。>「冗長さは最適化目標の副作用であって、請求戦略ではない。新しいモデルは有用性、カバレッジ、安全性を最大化するように訓練されているため、説明や保険、文脈の拡張に偏っている。GPT-4はその方向であまり積極的に最適化されていなかったので、デフォルトで簡潔に感じた。」楽しんでね!

アカウントなしでChatGPTをよく使ってるけど、ログアウト中に使えるChatGPT 5ミニは、Mistral 7b + ウェブ検索みたいなもんだよ。ほんとに平凡すぎる。元々の3.5の方がずっと先を行ってた。

ChatGPTの使用をやめて、Geminiに切り替えたよ。主に事実確認やちょっとしたコードのドラフトにLLMが必要だから。最初の部分はGoogleとGeminiを使って、後の部分はCodexの大ファンだよ。

APIからGPT-4.1シリーズが引退したら、それは大きな問題だね。構造化された出力に関しては、予測可能でかなり良いから、推論ステップが組み込まれていないのが大きい。Mixtralの構造化出力の能力についてはいい話を聞いたけど、自分の評価を試す機会がなかった。もし4.1がAPIから外れたら、それが最初の行動になるね。それに、5シリーズにはファインチューニングの能力がないし、推論ステップが関わるとどうなるかも不明だし。

みんながクロードに戻るってコメントしてるのが面白いね。私は逆に最近ChatGPTに満足してる。アンソロピックは去年の12月以降、何かを変えたみたい。私のプロプランは今やほとんど使えなくて、ソネットだけ使ってもダメ。週の制限にしょっちゅう引っかかるようになったし、そんなことは前はなかったのに。対照的に、ChatGPTはプランの使用に関してすごく寛大だよね。あと、オーパスを強く推してる人が多いけど、あれは少なくとも5倍プランが必要で、月に約100ドルかかるんだよね。私はChatGPTの20ドルプランだけど、5.2を高設定で使ってもほとんど制限に引っかからないよ。

それは違うよ。私は年間200ドルのプランを使ってて、毎日オーパス4.5を使ってる。確かに、約4時間のブロックで提供されるから、大きなタスクを実行すると制限に達しやすいけどね。

バグがあったけど、今は修正されたよ。制限の60%くらいで誤ってカウントされてたから、もう一度試してみて。