GPT-5: 「ブルーベリー」における文字bの出現回数は何回ですか？

2025年8月8日原文(bsky.app)

概要

Bluesky や AT Protocol に関する情報紹介。 JavaScript 必須のインタラクティブWebアプリケーション説明。 HTML のみのシンプルUIとの違い強調。 GPT5 での“blueberry”実験結果報告。詳細や追加情報は bsky.social や atproto.com 参照。

BlueskyとAT Protocolについて

Bluesky は分散型ソーシャルネットワークの構築を目指すプロジェクト
AT Protocol はBlueskyで使用されるオープンな通信プロトコル
詳細情報や公式リソースは bsky.social および atproto.com で提供
利用者や開発者向けのコミュニティやドキュメントの整備
透明性や相互運用性を重視した設計思想

JavaScript必須のWebアプリケーション

本アプリケーションは JavaScript が必須
高度なインタラクション や動的な機能を提供
単純な HTMLインターフェース では実現できない体験
ユーザー操作に応じたリアルタイムな更新やレスポンス
JavaScript未対応環境では主要機能が利用不可

“blueberry”実験とGPT5

“blueberry”に関する GPT5 での実験を独自に実施
結果や内容は事実として報告
実験の詳細や考察は Kieran Healy のブログで公開
- 参考リンク: https://kieranhealy.org/blog/archives/2025/08/07/blueberry-h...
実験内容の透明性と再現性への配慮

参考情報・リンク

公式サイト: bsky.social
プロトコル詳細: atproto.com
関連ブログ: Kieran Healy のブログ記事

Hackerたちの意見

これらは、見た目には印象的なLLMの推論や知識、創造性と並べると、いつも驚かされるよね。単語や数字について、最も基本的な間違いを簡単に犯させられるし、その間違いを繰り返し説明しても「全然正しい」と言い張るんだ。どこかのシステムが「単語やスペル、テキストの構造や文脈について直感的に知っているわけじゃないから、確認するためのツールを使ってね」みたいな警告をLLMに促したことってあるのかな？例えば、単語や他のテキストのスペル、文字数、あるいは単語やテキストにコードや機械的な変換、置換を適用した結果について、直感的に知っているわけじゃないから、間違った推測をする可能性が高いよね。もし単語やテキストの内容や構造、変換やコードを使った結果について話す場合や主張する場合は、必ずツールを使って直感を確認するべきだよ。

└

いいアイデアだね。例えば、誰かが「君の段落にBがいくつあるか数えて」って言ったら、手で数えるなんて無駄だし、grep -o 'B' file.txt | wc -lみたいなコマンドを使っちゃうよね。人間として、画面に100000000って数字が出てきたら、それが1億なのか10億なのか、近づいて慎重に数えないと確信が持てないし。メガネをかけるべきだな。マウスポインタは、千の区切りとして役に立つけど、やっぱり限界があるよね。数学のためにツールを与えるなら、最高のツールにアクセスさせる方がずっと理にかなってる。MCPをMathematicaやMatlabにして、LLMに数学を書かせて、古典的なソルバーに結果を処理させるのがいいと思う。LLMには、こういう分析的な質問に対処するために、少しのbashやpythonを書かせるのがいいよね。まるで子供に電卓を与えるような感じだね。

└

LLMには必要なら質問するように言ってるし、私と一緒に働いているのは熟練した開発者だって伝えてる。それが協力的になってくれるみたい。

└

システム的な欠陥をプロンプトで解決するのは無理だよ。

└

「あなたは…について多くの事実を直感的に自動的に知っているわけではありません」といった警告でLLMを促すこと。私たちはテキストについて「知る」ことができないことに特に興味があるわけじゃない。むしろ、意識的にアイデアを処理する能力に強く興味があるんだ。そのため、数えられないことは一般的な重要な欠陥を示唆している。

僕のスマホにはgpt-4oが入ってて、正しい結果が出るんだ: https://files.catbox.moe/0yg6cu.jpg でも、ブラウザにはgpt-5があって、3って言ってる: https://files.catbox.moe/63qkce.jpg Claudeは一文字ずつスペルを教えてくれる: https://files.catbox.moe/f1irfx.jpg だから、GPT-5 Thinkingが正しい結果を出すかと思ったら、ちゃんと出た: https://files.catbox.moe/xlchnr.jpg ただ、この質問の思考過程は見せてくれないから、推論モデルを使ったのか、非推論モデルに戻ったのかは不明だね。 > ChatGPTのGPT-5は推論、非推論、ルーターモデルのシステムだけど、APIプラットフォームのGPT-5はChatGPTで最高のパフォーマンスを発揮する推論モデルだよ。特に、最小限の推論を持つGPT-5は、ChatGPTの非推論モデルとは異なるモデルで、開発者向けに調整されている。ChatGPTで使われている非推論モデルはgpt-5-chat-latestとして利用可能だよ。 https://openai.com/index/introducing-gpt-5-for-developers/

それって、トレーニングと入力データのトークン化によって生じたアーティファクトじゃない？見てみて: https://platform.openai.com/tokenizer https://github.com/openai/tiktoken

└

トークン化のどこで3番目のbが出てくるの？

└

いや、それはモデルの全体的なアーキテクチャの問題だよ。実際の推論はないみたい。推論は既存のオートコンプリートの上にあるフィードバックループに過ぎないように見える。業界が出力のためのトークンを「推論」と呼ぶのは、本当に不誠実だと思う。まるで、もっとオートコンプリートをする前のオートコンプリートが意識の問題を解決するために必要なすべてだったかのように。編集: 文字の頻度は、算数をするのと同じように、ただのスクリプト化された出力になってしまったみたい。LLMはこの種の作業を本質的に行う能力がないから、タスクをオフロードするように訓練されている。編集: このコメントは異常に高評価と低評価を受けているみたい。反応的な投票以外に何か追加することがあれば、ぜひ議論に参加してね。

└

単語をスペルできるんだよね（各文字を大文字にして、その後にスペースを入れると、各文字が別のトークンになる）。それに、推論トークンもあって、前のモデルは単語を綴ることが文字を数えるのに役立つって知ってた。トークン化が問題を難しくするけど、解決しないのはやっぱり推論や知性の問題だよね。

└

これは明らかにトークン化の副産物だけど、「ただ」とは思わない。ポイントは、GPTのシステムアーキテクチャがここでギャップを埋めるのが信頼できないってこと。文字列の中のBの数を数えるのはほぼできるし、トークンに対するBの数のマッピングを正しく構築できない理由はない。実際、しばしば正しい答えを出す。でも、出さないときは、思考の連鎖みたいなもので修正できるわけじゃない。これは大きな問題で、（かなり大きな）LLMがちょっと良くなったときに役立つと期待されることに関して影響がある。例えば、現代のLLMが信頼性の高いセキュアなコードを書けるようになるとはどうして思えるの？セキュアとほぼセキュアの違いが似たような問題にぶつかる可能性はないの？

└

よくある誤解だね。それは、文字を数えるアルゴリズムがトークンごとに1を足すだけでは簡単じゃないってことを意味してる。異なるトークンの数はパラメータ空間に比べて小さいし、トークンタイプから文字数へのマッピングをその重みの中に保存するのは不可能じゃない。もし、もう少し具体的でないアイデアに頼るのが大丈夫なら、トランスフォーマーは任意の関数近似器で、トークン化はそれを変えないし、その事実の証明もある。有限長の関数（例えば、限られた範囲での文字を数えること）に関しては、十分大きなネットワークを持って、正しくトレーニングする方法を見つけるだけの問題。彼らはただそれを気にしてないだけ。

Hacker Newsで議論の続きを見る

ハクソク