世界を動かす技術を、日本語で。

GPT-5: 「ブルーベリー」における文字bの出現回数は何回ですか?

概要

BlueskyAT Protocol に関する情報紹介。 JavaScript 必須のインタラクティブWebアプリケーション説明。 HTML のみのシンプルUIとの違い強調。 GPT5 での“blueberry”実験結果報告。 詳細や追加情報は bsky.socialatproto.com 参照。

BlueskyとAT Protocolについて

  • Bluesky は分散型ソーシャルネットワークの構築を目指すプロジェクト
  • AT Protocol はBlueskyで使用されるオープンな通信プロトコル
  • 詳細情報や公式リソースは bsky.social および atproto.com で提供
  • 利用者や開発者向けのコミュニティやドキュメントの整備
  • 透明性や相互運用性を重視した設計思想

JavaScript必須のWebアプリケーション

  • 本アプリケーションは JavaScript が必須
  • 高度なインタラクション や動的な機能を提供
  • 単純な HTMLインターフェース では実現できない体験
  • ユーザー操作に応じたリアルタイムな更新やレスポンス
  • JavaScript未対応環境では主要機能が利用不可

“blueberry”実験とGPT5

  • “blueberry”に関する GPT5 での実験を独自に実施
  • 結果や内容は事実として報告
  • 実験の詳細や考察は Kieran Healy のブログで公開
    • 参考リンク: https://kieranhealy.org/blog/archives/2025/08/07/blueberry-h...
  • 実験内容の透明性と再現性への配慮

参考情報・リンク

  • 公式サイト: bsky.social
  • プロトコル詳細: atproto.com
  • 関連ブログ: Kieran Healy のブログ記事

Hackerたちの意見

これらは、見た目には印象的なLLMの推論や知識、創造性と並べると、いつも驚かされるよね。単語や数字について、最も基本的な間違いを簡単に犯させられるし、その間違いを繰り返し説明しても「全然正しい」と言い張るんだ。どこかのシステムが「単語やスペル、テキストの構造や文脈について直感的に知っているわけじゃないから、確認するためのツールを使ってね」みたいな警告をLLMに促したことってあるのかな?例えば、単語や他のテキストのスペル、文字数、あるいは単語やテキストにコードや機械的な変換、置換を適用した結果について、直感的に知っているわけじゃないから、間違った推測をする可能性が高いよね。もし単語やテキストの内容や構造、変換やコードを使った結果について話す場合や主張する場合は、必ずツールを使って直感を確認するべきだよ。

いいアイデアだね。例えば、誰かが「君の段落にBがいくつあるか数えて」って言ったら、手で数えるなんて無駄だし、grep -o 'B' file.txt | wc -lみたいなコマンドを使っちゃうよね。人間として、画面に100000000って数字が出てきたら、それが1億なのか10億なのか、近づいて慎重に数えないと確信が持てないし。メガネをかけるべきだな。マウスポインタは、千の区切りとして役に立つけど、やっぱり限界があるよね。数学のためにツールを与えるなら、最高のツールにアクセスさせる方がずっと理にかなってる。MCPをMathematicaやMatlabにして、LLMに数学を書かせて、古典的なソルバーに結果を処理させるのがいいと思う。LLMには、こういう分析的な質問に対処するために、少しのbashやpythonを書かせるのがいいよね。まるで子供に電卓を与えるような感じだね。

LLMには必要なら質問するように言ってるし、私と一緒に働いているのは熟練した開発者だって伝えてる。それが協力的になってくれるみたい。

システム的な欠陥をプロンプトで解決するのは無理だよ。

「あなたは…について多くの事実を直感的に自動的に知っているわけではありません」といった警告でLLMを促すこと。私たちはテキストについて「知る」ことができないことに特に興味があるわけじゃない。むしろ、意識的にアイデアを処理する能力に強く興味があるんだ。そのため、数えられないことは一般的な重要な欠陥を示唆している。

僕のスマホにはgpt-4oが入ってて、正しい結果が出るんだ: https://files.catbox.moe/0yg6cu.jpg でも、ブラウザにはgpt-5があって、3って言ってる: https://files.catbox.moe/63qkce.jpg Claudeは一文字ずつスペルを教えてくれる: https://files.catbox.moe/f1irfx.jpg だから、GPT-5 Thinkingが正しい結果を出すかと思ったら、ちゃんと出た: https://files.catbox.moe/xlchnr.jpg ただ、この質問の思考過程は見せてくれないから、推論モデルを使ったのか、非推論モデルに戻ったのかは不明だね。 > ChatGPTのGPT-5は推論、非推論、ルーターモデルのシステムだけど、APIプラットフォームのGPT-5はChatGPTで最高のパフォーマンスを発揮する推論モデルだよ。特に、最小限の推論を持つGPT-5は、ChatGPTの非推論モデルとは異なるモデルで、開発者向けに調整されている。ChatGPTで使われている非推論モデルはgpt-5-chat-latestとして利用可能だよ。 https://openai.com/index/introducing-gpt-5-for-developers/

それって、トレーニングと入力データのトークン化によって生じたアーティファクトじゃない?見てみて: https://platform.openai.com/tokenizer https://github.com/openai/tiktoken

トークン化のどこで3番目のbが出てくるの?

いや、それはモデルの全体的なアーキテクチャの問題だよ。実際の推論はないみたい。推論は既存のオートコンプリートの上にあるフィードバックループに過ぎないように見える。業界が出力のためのトークンを「推論」と呼ぶのは、本当に不誠実だと思う。まるで、もっとオートコンプリートをする前のオートコンプリートが意識の問題を解決するために必要なすべてだったかのように。編集: 文字の頻度は、算数をするのと同じように、ただのスクリプト化された出力になってしまったみたい。LLMはこの種の作業を本質的に行う能力がないから、タスクをオフロードするように訓練されている。編集: このコメントは異常に高評価と低評価を受けているみたい。反応的な投票以外に何か追加することがあれば、ぜひ議論に参加してね。

単語をスペルできるんだよね(各文字を大文字にして、その後にスペースを入れると、各文字が別のトークンになる)。それに、推論トークンもあって、前のモデルは単語を綴ることが文字を数えるのに役立つって知ってた。トークン化が問題を難しくするけど、解決しないのはやっぱり推論や知性の問題だよね。

これは明らかにトークン化の副産物だけど、「ただ」とは思わない。ポイントは、GPTのシステムアーキテクチャがここでギャップを埋めるのが信頼できないってこと。文字列の中のBの数を数えるのはほぼできるし、トークンに対するBの数のマッピングを正しく構築できない理由はない。実際、しばしば正しい答えを出す。でも、出さないときは、思考の連鎖みたいなもので修正できるわけじゃない。これは大きな問題で、(かなり大きな)LLMがちょっと良くなったときに役立つと期待されることに関して影響がある。例えば、現代のLLMが信頼性の高いセキュアなコードを書けるようになるとはどうして思えるの?セキュアとほぼセキュアの違いが似たような問題にぶつかる可能性はないの?

よくある誤解だね。それは、文字を数えるアルゴリズムがトークンごとに1を足すだけでは簡単じゃないってことを意味してる。異なるトークンの数はパラメータ空間に比べて小さいし、トークンタイプから文字数へのマッピングをその重みの中に保存するのは不可能じゃない。もし、もう少し具体的でないアイデアに頼るのが大丈夫なら、トランスフォーマーは任意の関数近似器で、トークン化はそれを変えないし、その事実の証明もある。有限長の関数(例えば、限られた範囲での文字を数えること)に関しては、十分大きなネットワークを持って、正しくトレーニングする方法を見つけるだけの問題。彼らはただそれを気にしてないだけ。

試してみたら、やっぱり3つのBが出た。でも、モデルを「ChatGPT 5 Thinking」にしたら、正しい答えが出た。これが今後の方向性なのかな?ユーザーは速さとバカさ、遅さと正確さのどちらかを選ばなきゃいけないの?

それがほとんどのことに対する選択肢じゃない?

速さ:間違っててもそれで十分なとき。

gpt-ossがこの問題を扱うときの「推論」トレースを見ると、各文字の間にスペースを入れて単語を繰り返してる。もし、よりバカなモデルが失敗する例があれば、プロンプトを調整して同じこと(各文字の間にスペースを入れた単語)を含めてみて。これは解決策でも回避策でもないけど、バカなモデルがそれで正しくなるのかちょっと気になる。

「GPT5に対して公平を期すと、私のキャリアの中で、特定のブルーベリーにこれだけのコミットメントを持っているPhDに出会ったことがある。」いい表現だね!

なんでここにいる人たちは、LLMがASCIIや他の生の文字を入力として見てないってことがわからないんだろう?スペルや韻、算数とか文字に関する反応を期待しても、いつもがっかりする結果になるだけだよ。

くそったれなことに、あいつらは「知能」って言葉のもとで売り出されてるんだよね。その言葉、昔はもっと意味があったのに。

こっちは理解してるよ。それが問題だとは思ってないけど。もしモデルが文字レベルの考慮ができないなら、それは深刻な欠陥で、計り知れない数の失敗状態につながる可能性があるからね。「ああ、もちろん数えられないよね」ってのは、博士号レベルのスキルを持ってるって言ってるボットにはあまり良い印象じゃないよ。

それじゃあ、他にどんな物体的なアイデアを実現できないんだろう?彼らの仕事は、すべての重要なメンタルアクティビティをチェックすることだよ。世界のシミュレーションとか、「自分に信頼できる物語を語ること、それが知能なんだ」ってパトリック・ウィンストン教授が言ってる。

「LLMは明確な限界を持つクールなツール」っていうのは、上司や推進者たちが言ってるストーリーじゃない。「LLMは文字通り魔法で、大部分の労働力を置き換え、火よりも大きな革命になる」って言ってるんだよ。

問題は、こういう簡単なタスクができないのに、PHDレベルの知性って呼ぶべきじゃないってことだね。

数日前にいろんなモデルでこのテストを徹底的にやってみたけど、誰も数えられなかった。みんな結果が間違ってて、チェックできないって言ってただけ。手続き的思考ができるようになるまでは、根本的に信頼できないし、構造的に狂ってるよ。こうやって簡単にチェックできるのはいいことだね。もし製作者がローカルな欠陥だけを修正してたら、手続き的思考が欠けてることは明らかにならないし、もっと複雑なチェック方法が必要になるだろうね。

推論を有効にした?Qwen3 32bは推論を有効にした状態で最初の試みで正しい答えを出したよ。

これは gpt-5-chat-latest モデルのコンプリーションAPIで一貫して再現できるよ: curl 'https://api.openai.com/v1/chat/completions' \ --header 'Content-Type: application/json' \ --header 'Authorization: Bearer ' \ --data '{ "model": "gpt-5-chat-latest", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "ブルーベリーにbが何回出てくるか数えて" } ] } ], "temperature": 0, "max_completion_tokens": 2048, "top_p": 1, "frequency_penalty": 0, "presence_penalty": 0 }'

これはLLMにとってよく知られた盲点だね。人間に視覚的錯覚を見せて、その画像の現実を理解できないと知能を判断する機械版みたいなもんだよ(https://en.wikipedia.org/wiki/Optical_illusion の一番上の灰色の箱の例がいい例)。失敗は彼ら/私たちの根本的なアーキテクチャの結果なんだ。

ただ、私たちはそれが錯覚だって気づいて、反論しないんだよね。代わりに、どうしてその錯覚が働くのかを探求するんだ。

ひどい例えだね。錯覚は私たちの知性を騙すんじゃなくて、感覚を騙すんだ。で、私たちは知性を使って感覚を上回り、実際にそれが何であるかを見る。だからこそ、錯覚は面白いし、言葉もあるんだよ。知性と感覚の間に対立を生むからね。機械の感覚は騙されてない。機械には感覚もないし、知性もない。心を持ってるわけじゃない。生物の心と1:1で比較しようとするのは無駄な努力だよ。機械はテキストを処理して生成するだけ。これは生物の知性と同じことじゃない。

OpenAIはモデルの一つを「プロジェクト・ストロベリー」と名付けたんだけど、確かサム・アルトマン自身が「ストロベリー」の中の「r」の数を数えられるってことで勝利を祝ってたんだよね。これって、LLMが本当に問題のクラスで良くなってるのか、特定のベンチマークに合わせて微調整されてるだけなのかを見分けるのが難しいってことを示してると思う。

ただ、推論モデルのo3やGPT5は正しい答えを出せるんだ。人間は推論を使うからね。

光の錯覚では、実際には存在しないものを知覚します。これは、視覚情報をより実用的に理解するための補正メカニズムを利用しているからです。LLMに単語の中の文字を数えさせると失敗するのは、必要な情報がそもそも彼らの感覚データに含まれていないからです。プログラムの入力をそんなふうに例えることができるくらいです。彼らはテキストを原子的な単語のようなトークンで考えますが、個々の文字を知覚することはありません。「ブルーベリーにはbが2つある」といったトレーニングデータを何度与えても、これは「ブルーベリー」という単語自体に関する事実としては認識されず、特定の文脈で現れる傾向に関する事実として捉えられます。彼らは加算やカウントの概念をモデル化するわけではなく、そういった概念を説明することだけをモデル化しています。

ローカルで動かしてるQwen3 32bは、推論を使うと正しい答えを出す。サイズに対してかなり良いモデルだと思う。GPT5も推論を使えば解けるはずだよ。ここでの本当の問題は、GPT5のルーターがそれが推論を必要とする問題だって理解してないことだね。