世界を動かす技術を、日本語で。

GPT-5の思考:ChatGPT(別名「リサーチゴブリン」)は検索に優れている

概要

OpenAIの GPT-5 による検索機能は、従来の「チャットボットは検索エンジンとして使うな」という常識を覆すレベルに到達。 「 Research Goblin」と名付けたGPT-5は、複雑な調査も高精度で実施可能。 スマートフォンからの音声入力でも、深い調査が手軽に実現。 従来の検索やDeep Research機能よりも 迅速かつ有用 な結果を提供。 ユーザー体験のコツや、GPT-5の検索活用事例も紹介。

GPT-5による検索の進化と活用事例

  • 従来の常識 「チャットボットは検索エンジンとして使うな」は、GPT-5の登場で変化
  • OpenAIの o3モデル がBing検索連携で高評価、GPT-5はそれ以上の性能
  • Research Goblin」という愛称で、日常の些細な疑問から複雑な調査まで幅広く対応
  • 「GPT-5 Thinking」モデル を選択することで、より包括的な(ただし遅めの)検索結果を取得
  • スマートフォン+音声入力で、移動中や他の作業中にも 効率的な調査 が可能

調査事例の紹介

  • バウンシートラベレーター (Heathrow空港のゴム製歩く歩道) ・2014〜2018年の間に金属製へ変更 ・サンフランシスコ空港の歴史記事も発見

  • 建物の特定 (Readingで撮影した建物) ・写真から「The Blade」と正確に特定

  • Starbucks UKのケーキポップ ・2023年9月に英国で発売も、全店舗では未提供 ・公式PDFで証拠を提示

  • WikipediaとBritannicaの関係 ・Wikipediaは1911年版Encyclopædia Britannicaの著作権切れコンテンツを2006年に利用 ・WikiProject Encyclopaedia Britannicaへのリンクで詳細解説

  • University of Cambridgeの正式名称 ・「The Chancellor, Masters, and Scholars of the University of Cambridge」と正確に回答

  • Exeter Quayの洞窟の歴史 ・建物は1820〜1830年代に崖を掘って建設 ・関連PDFや地図、メール文案まで自動生成

  • AldiとLidlの比較 ・両者とも「ノーフリル」型ディスカウンター ・Lidlの方がやや洗練、Aldiはよりシンプルと評価

  • AIラボの書籍スキャン ・Anthropic以外で大規模な書籍スキャンの証拠は発見できず

GPT-5検索の特徴と強み

  • 「有能さ(competent)」 が最大の特長
  • 手動検索よりも 迅速かつ網羅的 な調査が可能
  • モバイル環境でも 高いパフォーマンス
  • 従来のDeep Research機能よりも スピーディーで実用的
  • 開発者視点では「 ツール呼び出し+チェーン・オブ・ソート」の組み合わせが鍵 ・RAG(Retrieval-Augmented Generation)も、検索ツールとの連携で効果増大 ・検索・推論・追加検索を 一連の思考プロセス で自動化

ChatGPT検索活用のコツ

  • 経験から直感を磨く ことが重要
  • 「go deep」などのヒントで より深い調査 を指示可能
  • 明確な答えがない広いテーマの質問も 楽しい体験
  • 「Research Goblin」は 人間とは違った判断や発想 を持つ存在 ・完全な信頼は禁物、 ユーザーの見極め が必要

関連情報

Hackerたちの意見

すごいね!高校の先生や大学の教授たちは、これからの必然的な使い方にどれだけ苦労するんだろう?「深いインターネットリサーチをして、J.R.R.トールキンの『指輪物語』三部作がメルヴィン・ピークの『ゴーメンガースト』シリーズに影響を受けたというアイデアを支持する証拠をできるだけ提示してみて。」

「スティールマン」っていう新語を使ってたのが面白かったな。しかも、ちょっと冗長にね。

アイデア:先生向けのワークショップを開いて、子供たちがGから得たことを自分の考えでサポートするように刺激するソクラテス式の方法を教えるのはどうかな。たとえそれが基本的でシンプルなものであっても。ChatGPTのリサーチで強化された現在の知識グラフを形成することが、XPの損失を補う方法になるかもしれない…子供たちが今いるレベルでのグラインドから得られるXPをね。

ちゃんと事実確認した?リンク全部クリックして、ソースが何か見た?前に会議でChatGPTが何かを「解決した」って自慢したんだけど…そう、あれはウィキペディアからの情報で、間違ってたよね :)

カンニングする学生のことだけど、ほとんどは(少なくとも学校の課題に関しては)すごく怠け者で、自分の仕事が高品質かどうかなんて気にしてないと思う。徹底的な結果を得るためにThinkingモードで数分待つのは、あまり魅力的じゃないだろうね。4oや4o-miniで十分だったんじゃないかな。

この回答が解決するのに驚くほど時間がかかるよね。Brave検索に質問を入れれば、ほぼ同じ答えが数秒で出てくるのに。

チャット+検索を使えば、いろんなリンクをクリックしたり、コンテンツファームを漁ったり、広告や誤ってマルウェアをダウンロードすることもないんだよね。

最近はSEO最適化された低品質なサイトが多いからね?全然納得できないわ。

Braveは好きだけど、検索がひどいんだよね。AIの部分はそこそこ良さそうだけど、下に表示される結果は全然求めてるものじゃない。

これは「ウェブ検索」、「ディープリサーチ」、それとも「エージェントモード」の機能なのかな?機能を使いこなすのは…楽しいね。

これはただのChatGPT 5の思考モードで、ウェブ検索がプロファイルレベルで有効になってるだけな気がする。たとえそれがなくても、最近のデータやリサーチ、思考に関する指示があれば、かなり深く考えたりリサーチしたりすると思う。

自分の経験では「Redditを検索してコメントをまとめる」って感じだね。

それはDeep SearchやAgent Modeじゃないよ。モデルピッカーから「GPT-5 Thinking」を選んで、通常の検索ツールが有効になってることを確認してる。

これは普通のモードだと思うよ。私の経験では、ウェブ検索オプションを選ばなくてもウェブを検索できるからね。なんで今の時点でウェブ検索をオプションにしてるのか気になるな(LLMに検索させるため?)

以前の「ヘビー」なモデルが持ってた百科事典的な知識が恋しいな。新しい「ライト」なモデルはウェブ検索に頼ってるから、知識の表層しか引き出せないんだよね(SEOやウェブ結果のランキングの課題のおかげで)。オフラインの図書館をデジタル化したものを含めて、人類が書いた知識のほとんどを吸収・記憶してたのとは大違いだよ。

逆に感じるな。モデルの「内部」知識を使う前に、それが妄想じゃないか確認するために独自のリサーチをしなきゃいけない。LLMに検索文字列を生成させて、結果をまとめさせることで、そのリサーチを事前に自動でやってくれるから、ソースをクリックするだけで確認できるんだ。Kagi Assistantはこれをすごくうまくやってるよ。

「百科事典的な知識」って、ただの妄想じゃないの?

本当の知識は頭の中だけじゃなくて、外に保存されてるから、知的エージェントは自分が覚えてることだけに頼れないんだよね。だから、図書館が大学にとってすごく重要なんだ。

ChatGPTの回答の質が下がるから、長い間検索機能をオフにしてたんだ。最近、最高の結果を得るためにカスタム指示に以下の内容を追加したよ:# モード ユーザーが以下の文字列を入力したときは、次のモード指示に従ってね:1. "xz": 回答を作成する際に必要に応じてウェブツールを使う。2. "xx": インターネットを検索せず、自分の知識だけを使う。デフォルトではモード"xz"を使用するよ。ユーザーはチャットセッション中にモードを切り替えられる。ユーザーが明示的にモードを切り替えるまで、現在のモードを維持してね。

これ、僕も感じてる部分があるかも。軽いウェブ検索モデルが、他の場所で見た情報と各ページで新しい情報の違いを強調してくれたら面白いよね。例えば、主張されていることを見て、どれだけのページがその事実を主張しているか(言及されてないか、矛盾しているか)を確認できるような視点があったらいいな。

自分が気になることを深く掘り下げるのには良いと思うけど、あんまり時間をかけたくない時に使う感じ。例えば、コーヒーシロップにどれくらいの砂糖が入ってるか知りたくて、自分で作りたかったんだけど、マーケティングの情報に埋もれちゃってた。でもChatGPTは欲しい情報が載ってるデータシートを見つけてくれた。結局自分でも見つけられたと思うけど、そんな重要じゃないことに時間かけたくないからね。ただ、考えなしの検索は全然ダメ。1回検索して、結果がうまくいかなかったら諦めたり、妄想しちゃう。俺が同じ質問したら、その情報は公開されてないって言われたよ。

Gemini Deep Research機能も見逃さないでね。車の作業に使ってるけど、その価格帯では毎回ChatGPTより優れてるよ。

ChatGPTはリサーチには優れてると思うけど、オンラインで明確な一次情報が簡単に手に入るのに、微妙に間違った浅い回答に偏る病的な失敗モードがあるよね。https://www.fortressofdoors.com/researchers-beware-of-chatgp...

そうそう、私も同じような経験があるよ。GPT5 Thinkingに切り替えると少しはマシになるけど、o3やo1を使ってた時に比べると、見落とすことが多いんだよね。例えば、ボッチャンが温泉で何か事件に巻き込まれたか聞いてみたんだけど、これは簡単に見つかるテキストで、訓練されてるはずなのに。小説の中でボッチャンは温泉で泳いで、次に戻った時には「温泉で泳がないでください」っていう看板があって恥をかくんだ。GPT5はこんなことを言ってたけど、微妙に間違ってる。

小説の中で、ボッチャンが道後温泉に行くと、浴場の掲示ルールに気づく。その中の一つはこう言ってる。 「浴場で泳がないこと。」(泳ぐべからず) 「無闇に騒ぐべからず。」(無闇に騒ぐべからず) ボッチャンはこれらの看板が面白いと思う。彼はまさに水をはねたり騒いだりしそうな性格だからね。彼のナレーションでは、まるでこのルールは彼のような人を排除するために書かれたかのように冗談を言ってる。ちなみに、道後温泉には今も「泳がないでください」の看板があったと思う。10年前に行った時はそうだった。

あなたの説明とはちょっと違う気がする。研究文献と矛盾する意見を持ってるみたいだね。その意見についてブログを公開して、ChatGPTに自分の見解を受け入れてほしいってこと?その意見は政治的な意図があるように思えるし、ChatGPTがこの件で失敗したかどうかを客観的に判断できる立場にはないと思うよ。

本当に素晴らしいよ。私がまだRedditにいた頃、「Tip of My Tongue」サブを使って、数年前に半分覚えてたようなマイナーな情報を探してたんだ。ほとんどはうまくいったけど、どうしても解決できなかったケースもいくつかあった。Googleの力をフル活用してもダメだったんだよね。最近、その解決できなかった投稿のテキストをDeep Researchに送ったら、1時間以内に4つ解決してくれて、5つ目を自分で見つける手助けもしてくれた。推論部分が完璧じゃなくても、数十件の検索結果を素早く消化して、ざっくりした説明から関連情報を引き出せるのは本当に強力だよ。今では、数分でその検索力を手に入れられるし、Redditのスパムボットや投稿フィルター、質問を読まないユーザーたちに悩まされることもないからね。

情報検索に関しては、既存の文書へのリンクや、その処理された情報に基づいて生成されたコンテンツの間で何でも得られるよね。後者は本当に強力で素晴らしくて、役に立ちそうだけど、間違ってることも多いし、僕が得意じゃないことに使うと、うまくいかないことが多いんだ。ビジネスモデルが、回答に信頼度を付けられるように正当化できればいいのに。

子育てのアドバイスを試してみてるんだけど、「うちの5歳の子が急にすごく衛生に気を使うようになった。物に触りたがらないし、いつも手を洗ってる。これって普通なの?」って。 https://chatgpt.com/share/68be1dbd-187c-8012-98d7-83f710b12b... 結果はまあまあ妥当かな?こういう質問に対する医者からの返事を待つのは時間がかかるから、いいスタートだと思う。

サイモンの記事には同意するけど、僕は「研究」という言葉を、いろんな証拠を比較することだと思ってる(検索部分だけじゃなくて)。オバマケアの効果についての証拠とか、ある法律のケースが裁判でどうなるかとか、The CriticがThe Family Guyにどれだけ影響を与えたかとか、YライブラリのX機能をどう使うのがベストかとかね。ChatGPTや他のLLMは証拠を評価するのが苦手なことが多いと思う。情報源のバイアスを理解するのが難しいんだよね。例えば、怪しいシンクタンクからのデータを真実として受け入れちゃうとか。僕の仕事でも、推論が多いほど、幻覚が増えることが分かった。特に統計をたくさん集めるときはね。それに加えて、いつものおべっかもあって、モデルが自分の立場を支持する証拠を見つけたがることがある。自分が先導的な質問をしてるとは思わなくても、肯定的に答えたがることがあるんだ。だから、いつもChatGPTに直接引用して情報源を評価するように頼んでるし、賛成と反対の議論を比較するマインドセットにさせようとしてる。反応を見るために、その意見に反論する必要があることも分かったよ。詳しくはここにあるよ https://softwaredoug.com/blog/2025/08/19/researching-with-ag...

LLMの機能セットを示すために「研究」という言葉を使うことについて、みんなはどう思ってる?本当に研究を代表してるのかな?アメリカの選挙年によく使われる「自分で調べてみて」という言葉と比べてどうなんだろう?

いつもChatGPTに直接引用して情報源を評価するように頼んでるし、賛成と反対の議論を比較するマインドセットにさせようとしてる。反応を見るために、その意見に反論する必要があることも分かったよ。私も同じだよ。でも、しばしば壊れたリンクや偽のリンクを生成することがある。

自分のモニターの理想的な設定を見つけるためにパープレキシティを使ってみたんだけど、明確な設定のリストとその理由が返ってきたんだ。でも、その情報源を調べたら、ただの人たちがサムスンのフォーラムで推測し合ってるだけで、公式な情報とか裏付けも全然なかった。もし見つけた情報に基づいて信頼度の評価があったらいいなと思うけど、それを正しくやるのはかなり難しいだろうね。

いい指摘だね。「リサーチ」って単に検索するだけじゃなくて、いろんな証拠を比較して、その裏にあるバイアスを理解することなんだよね。LLMはここが弱いことが多いと思う、特に統計や微妙な推論の部分では、幻覚を見たり、確認バイアスに偏りすぎたりすることがあるし。君が言ってるように、モデルが与えられた枠組みに同調しがちなのも見たことあるよ。直接引用を求めて、モデルの主張に挑戦するのは、もっとバランスの取れた批判的な反応を引き出す賢い方法だと思う。

僕がまだ懐疑的な部分は、Googleもまだ検索には結構強いってことだね(特にAIの要約を避ければ)。あなたの例の一つを使うと、ブリタニカを使ってウィキペディアを調べてみたよ。「wikipedia encyclopedia britannica」で検索したら、1秒もかからずに結果が返ってきた。ページをスキャンするのに30秒くらい使ったかな。ウィキペディアのブリタニカの記事を見て、ウィキペディアについての百科事典の記事、比較しているRedditのスレッド、ブリタニカについてのシンプル英語ウィキペディアの記事、ウィキのブリタニカの記事を過ぎて、やっと「Wikipedia:WikiProject Encyclopaedia Britannica」のリンクを見つけた。それがあなたの質問に対する答えだよ。次に、ウィキペディアでウィキペディアを検索するのに数秒かけて、最初の段落で2001年に設立されたことを見つけた。だから、合計で60秒くらい検索、スキャン、結果を読んだことになる。実際の検索はGoogleで2、3秒、ウィキペディアで1回だった。ChatGPTがそれを処理するのにほぼ3分かかるのに比べて、結果を読む時間や、まだ幻覚を起こす可能性があるから情報源を確認する時間もかかる。で、そのためにいくら払ったの?この効率の悪い回答のためにどれだけのエネルギーを消費したの?チャットのトランスクリプトにリンクする時、ChatGPTがその特定のチャットのトークンコストを表示してくれたらいいのに。だから、ChatGPTで検索することは可能だけど、少なくともこのクエリに関しては、自分で検索してスキャンする方が遅くて効率が悪いように思える。これが一般的なLLMの印象だね。Xをできるのはすごいけど、Xをやらせるためのオーバーヘッド、結果を確認して、フォローアップして、間違いの影響に対処することを考えると、普通の検索と自分のスキャンに頼る方がずっと効率的に感じる。

もう一回その実験をやってみるのはどう?今度は一番難しい例を選んで、Googleで答えを探してみて。