世界を動かす技術を、日本語で。

「Appleの論理に関するウイルス的な論文への7つの反論とその限界」

概要

  • Appleの論文がLarge Reasoning Models(LRMs)の推論限界を明らかにし、スケーリング仮説に疑問を投げかけた事例
  • メディアやSNSで大きな反響、専門家や一般層も議論活発化
  • 反論も多いが、決定的な説得力には欠ける
  • LLMのアルゴリズム的信頼性や一般化能力の問題が浮き彫り
  • 今後のAGI達成には新たなアプローチが必要との指摘

Apple論文が引き起こした議論とその意義

  • Appleの論文Large Reasoning Models(LRMs) の推論能力の限界を指摘、スケーリング仮説に挑戦状
  • 多数の メディア、SNSで大きな話題、専門家から一般層まで幅広い反響
  • 筆者の解説記事も 15万超の読者 を集め、The GuardianやACMなどで転載・翻訳
  • GenAI楽観論者からの 反論 も多様、内容は細かい指摘から本質的議論まで幅広い
  • 主要な反論を検証し、どれも決定打に欠けると結論

主な反論とその評価

  • 「人間も複雑な問題や記憶で失敗する」

    • 部分的には正しいが、 機械には人間以上の正確性や能力 を期待するのが当然
    • LLMは既存のシンボリックAIよりも後退している場面もあり
    • 「人間もミスするからAIも許容せよ」は本質的なすり替え
  • 「出力トークン数が足りないから解けない」

    • 一部正しいが、 Hanoi 8枚盤など十分短い場合も失敗
    • シンボリックAIはこの問題を持たず、AGIも克服すべき課題
    • LLMの長さ制限は本質的なバグ
  • 「筆頭著者がインターン」

    • アドホミネム(人身攻撃)であり、 論文の質や共同著者の専門性 で反論可能
    • 科学界での著者順の慣習や過去の偉大な発見例も挙げ、反論の無意味さを指摘
  • 「より大きなモデルなら解ける」

    • 一部正しいが、 どのモデルがどの問題に十分かは事前に分からない
    • 問題サイズやバリエーションで突然失敗する例も多く、 信頼性の低さ が浮き彫り
    • 常に全タスクで検証が必要になる「賭博」状態
  • 「コード生成なら解ける」

    • コード生成成功は ニューラル+シンボリックAIの有効性 を示すが、汎用性や信頼性は未達
    • Apple論文の主目的は 概念的理解や探索能力の評価 であり、コードの利用では本質を問えない
    • 新規問題や動的環境ではコードダウンロードだけでは不十分
  • 「例が少なく、完璧でない」

    • 4例でも 過去の多くの研究と整合的なエビデンス を提示
    • 他にも同様の失敗例が次々と報告されており、今後も増加が予想される
  • 「既知の一般化困難性」

    • 既知だが、 なぜこれらのモデルがAGIへの近道と見なされてきたのか 再考を促す
    • 今回の論文でようやく大衆の注目が集まり、AIの「アキレス腱」が議論され始めた

スケーリング仮説への疑問と今後の展望

  • Salesforceの新論文 でも、推論やアルゴリズム的精度が35%に留まるなど、Apple論文と同様の課題が露呈
  • これらの結果から、 現状の技術は信頼に足りない ことが明確
  • NYU名誉教授Gary Marcusも「スケーリングだけではAGIに到達しない」と強調
  • 今後は ニューラルネット+シンボリックAIの統合 や、新たなアプローチの必要性が高まる

Hackerたちの意見

こんな記事を読むと嬉しいな。ハイプサイクルに水をかけるのって大事だと思う。新しいAIツールを本気で使いたいなら、現実を見てその能力について真剣に考えないとね。確かに印象的だし、役に立つことも多いと思う。でも、こんな風にハイプを続けるのは良くないよ。結局、これにお金を投資してる人たちだけが得するだけだから。

これらのツールに投資してる人たちにとっても、ハイプはポンプアンドダンプを狙ってる人や、AIに関するトレーニングやコンサルティングを売ってる人にしか利益がないよ。本当に進展を目指してる人たちは、今お金があるうちに、またAIの冬が来るかもしれないってことを考えなきゃいけないかもね。

テストトレインスプリットが何かを知ってる人からの批評は受け入れるよ。機械学習からかなり離れた人が、その能力について何か関連性のあることを言うっていうのは、AIに対する恐れの状態を物語ってるね。

ギャリー・マーカスは「現実を見つめる」っていうより、人気のあるAIのストーリーに対する反対派として名を上げようとしてるだけだよ。この文章は一見合理的に見えるけど、彼が以前の論文で「LLMに対するノックアウトブロー」と呼んでたものを擁護してるんだ。彼の多くの記事は一見合理的(ちょっとおかしいけど)に見えるけど、数十本読んでトレンドに気づくと、そうでもないってわかるよ。

「HNの不屈の楽観主義」と「Appleからの悪いニュースの論文」がこんな風にぶつかるのって、なんか本質的に面白いよね。止められないものが壊れない壁に向かって突進してる感じで、何が起こるかわからない。

AIがハイプされてるって言う人の気持ちがわからない。今のAIはほとんど何でも会話できるレベルに達していて、90%の人よりも賢く答えてくれるんだ。それってすごく印象的で、普通の人はそれに説得される必要なんてないよ。自然に感心してるだけなんだから。

実際にどれくらい役に立つの?もう1年以上、これらのことを言ってるけど、どこに成果があるの?試せる新しいオフィススイートはある?10倍のモバイルアプリ?巨大な新しい電子書籍ライブラリ?実際には、ジブリのミームやRETVRNのノスタルジー以外のものを生み出してるの?

自然にLLMにはかなり疑いを持ってる。彼らが書くコードの大半はクソだし、あんまり好きじゃないし、使うことも少ないけど、時間が経てばかなり役立つようになると思ってる。とはいえ、マーカスはディスコースにいるべきじゃないバカだ。彼がいると有意義な意見が埋もれちゃう。彼が書くことは、AIに反対の人たちにとっては誇張された赤肉みたいなもんだ。「尊厳の洗浄」だよ。彼をソースとして指摘することで、彼を有効な情報源として持ち上げてる。

もし他の人が元の論文(とその議論)を見逃してたら: https://news.ycombinator.com/item?id=44203562

ありがとう!マクロ拡張: 思考の幻想: 推論モデルの強みと限界 [pdf] - https://news.ycombinator.com/item?id=44203562 - 2025年6月(269コメント)これも: LLMに対するノックアウトブロー? - https://news.ycombinator.com/item?id=44215131 - 2025年6月(48コメント)他にあった?

Salesforceの論文からの引用は重要だよね。「エージェントはほぼゼロの機密性意識を示した」。

重要なポイントは、LLM(大規模言語モデル)がトレーニングデータで似たような解決策を見たときに「推論」できるけど、本当に新しい問題に対してはうまくいかないってこと。正確には推論とは言えないけど、多くの状況では役に立つくらいのものだよね。要求に応じて解決策を繰り返すのは便利だし、事実を繰り返すのも便利だよね。マーカスは技術的には正しいけど、明確な説明よりも感情的な議論に偏りすぎてる気がする。

もうこの「LLMはただのオウム」っていうのを聞くのに疲れた。LLMが推論して新しい問題を解決できるのは明らかだと思う。いろんな方法でこれをテストできるし、たくさんの例もあるし。 ______________ 返信用に編集: 「推論」と「新しい問題を解決すること」の定義を明確にする必要があるよね。私の視点では、推論 != 一般知能だと思うし、推論はスペクトラムだとも考えてる。最も難しい問題を解決できないからといって、全く推論できないわけじゃないよ。ちなみに、LLMは一般的に推論が苦手だと思ってるけど、全く推論できないとか新しい問題を解決できないという意見には反対だよ。具体的な反論や例としては: 1) 次のトークン予測自体が推論を必要とするタスクだと主張できる 2) 完全に作り上げた言語を使ったさまざまな翻訳タスクを構築できて、LLMが成功裏に完了できる。文脈内学習やゼロショット性能に関する研究がたくさんある。 3) LLMが推論できないことを証明するために、いろんなチャレンジやゲーム、パズルが作られてきたけど、一つ一つ解決されていく(例えば、https://gist.github.com/VictorTaelin/8ec1d8a0a3c87af31c25224...、https://ahmorse.medium.com/llms-and-reasoning-part-i-the-mon...)。時には、LLMのカットオフ日がパズルの公開前だったりすることもある。 4) 文脈外推論に関する研究の例もたくさんある(例: https://arxiv.org/abs/2406.14546)。投稿に対する具体的な反論としては: 1) ある複雑さの閾値で失敗し始めるとはいえ、LLMがこれらの難しいパズルを解決できるのは本当に素晴らしいことだよ!GPT-3.5はできなかったからね。推論に関しては徐々に進歩してると思う。より大きくて賢いモデルはゼロショットタスクが得意になってきてるし、それが推論と相関していると思う。 2) ポイント4(「より大きなモデルはより良いかもしれない」)について: これは非常に軽視していると思う。この論文自体が異なるモデルのパフォーマンスに大きなばらつきがあることを示している。例えば、図8では、Claude 3.7がDeepSeekを大きく上回り、はるかに長いシーケンス長で安定した解決策を維持しているのが見える。図5でも、より良いモデルやトークン数が「中程度」の難易度の問題でパフォーマンスを向上させることが示されている。「難しい」問題を解決できないからといって、全く推論できないわけではないし、決してそこに到達できないわけでもない。数年前には「中程度の問題を解決することはできない」と言っていた人が多かったけど、今では目標が変わってきている。

それが本当なら、もうすでに素晴らしいことになっているはずだけど、これらのツールはそれすらできない。彼らは「推論」プロセス中に、どこにでもある同じ解決策を繰り返すミスを頻繁にし、信じられる幻覚を作り出すから、それを注意深くチェックしないといけない。

それは推論とは真逆だよ。AIの兄弟たちは人々にLLMが賢いと思わせたいけど、実際には知性や推論ができない。推論っていうのは、見たことのない問題に取り組んで、それを解決するための革新的な方法を考えることを意味する。LLMはデータにあるものを再現するだけで、何が最良の解決策になるかを考えたり、推測したり、見積もったりすることはできない。ただ、問題に関連する解決策を見た頻度に基づいて確率計算をして出力するだけだよ。

それだけでも革命的だけど、今はまだ夢のまた夢だね。こないだ、ジェミニが基本的な教科書の問題に対して左右を混同しちゃったんだよ。

ほとんどの反論とその反論は、あまり良くない反論(例えば、最初に挙げられた著者への個人攻撃)か、ポイント5に含まれているように見える。重要な議論はポイント5で行われるべきなのに、ほとんどの投稿が他の反論に多くの労力をかけているのがイライラする。つまり、LLMがコードを書くことや論理システムを使うことをどの程度信頼して行えるのか、また、そうしたツールにアクセスできない場合の幻覚や誤った回答を提供することが本当に推論できないことを示すのか、賢い人間なら「それは無理だ」とか「私の能力を超えている」と言うべきだと思う。

賢い人間なら「それは多すぎる」とか「自分の能力を超えてる」と言うだろうね。最善を尽くして間違った答えを出すよりも。モデルたちはそうしたんだ。最初の100ステップを示して、その後は全部出力するのは多すぎるから、完了するためのステップを説明した。でもこれが「間違った答え」として評価されたんだ。 モデルの出力を実際に見てみると、大きな問題になると全然考えないことがわかるよ。「動きが多すぎるから、32,767の動きを個別にリストする代わりに解法のアプローチを説明するよ」 少なくともソネットに関しては、7枚以上のディスクになると問題を考えようとしない。問題と解決するためのアルゴリズムを述べて、個々のステップを考えずに解を出力するだけだね。

ほとんどの反論は3を除いて全然悪くないと思う。むしろこの記事がたくさんのストローマンを作ってる感じ。特に最初の反論はよく聞くけど、「この論文はLLMが推論しないことを証明している」と言う人が多い。著者はゴールポストを動かして、LLMがAGIにつながるかどうかについて議論してるけど、これはその議論に対するストローマンだよ。それに加えて、AGIを誤解してるみたいで、何かの超知能だと思ってる。「私たちは機械ができないことをやることを期待する権利がある」ってね。平均的な人間と同じくらいのことができるAIがAGIの定義だよ。特に、LLMがすでにハノイの塔で人間を上回ってるのに、この議論は変だね。普通の人は、実際のディスクを使って状態を追跡せずに、8枚のハノイの塔の動きを「一発」で教えられないと思う。LLMはAGIに到達するためにもっと大きな障害があるけど。5も「ウェブから取得した既存のコードをどれだけうまく使えるか見えない」という点で大きなストローマンだよ。これらのモデルは、新しい問題がトレーニングデータに存在しなくても、こういう問題を解決するためのコードを書くからね。これらの問題は論文の中で有効なものだよ。論文は特に大胆な主張をしてるわけじゃなくて、LLMには推論に限界があると結論付けてるだけ。キャッチーなタイトルがあって、多くの人がそれ以上読まなかったんだ。

Appleの論文と特にゲイリー・マーカスへの批判を提供している良い記事だね。 https://www.lesswrong.com/posts/5uw26uDdFbFQgKzih/beware-gen...

正直な質問だけど、ゲイリー・マーカスの意見はまだ重要なの? 彼の批判は科学的というより哲学的に見える。彼がどうやって結論に至るのか、全然理解できないんだ。

lesswrong.com うん、いや、ユード教のクレイジーな人たちの話は聞かないよ。

俺が気になるのは、投稿者も言ってるけど、人々が「それはトレーニングセットにあるから」と正しい答えを簡単に認めるのに、トレーニングセットにある間違った答えについては誰も何も言わないことだよ。LLMはトレーニングセットの中で間違えることが多いけど、それが複雑な質問に対して正しく答えられない証拠にはならないんだ。LLMは厳しい立場に置かれてるよ。正しいなら記憶してるってことだし、間違ってたら推論できないってことになるから。

  1. 人間は複雑な問題や記憶の要求に苦労する。確かに!でも不完全だね。私たちは機械ができないことをやることを期待する権利がある。[...] AGIに到達したいなら、もっと良くならないと。 この議論が理解できない。論文は「RLLMが考えることができるかどうか」についてのものだよ。「人間もこういう間違いをする」と認めたとしても、「私たちは思考の定義にこの能力を必要とする」とも言ってるなら、「人間の思考は幻想だ」とも言ってることになるんじゃない?

同意。両方の主張が満足できない。質的な質問に対する量的な答えのように見える。

同意だね。でも、AGIについての彼の意見は間違ってる。あらゆるタスクで平均的な人間と同じレベルでパフォーマンスを発揮するAIは、定義上AGIだよ。

  1. 学生は、数学ソフトウェアが瞬時に正しい答えを出せるにもかかわらず、手で積分や微分を求める数学試験に文句を言うかもしれない。しかし、問題を出す教師の目的は、その質問の答えを見つけること(おそらく教師はすでに答えを知っている)ではなく、学生の概念理解を評価することだ。LLMはハノイを概念的に理解しているのか?それがAppleチームが言おうとしていたことだ。(LLMは正しいコードをダウンロードできる?もちろん。でも、概念的理解なしにコードをダウンロードするのは、新しい問題や動的に変化する環境ではあまり役に立たない。)なんで「ダウンロード」について話してるの?LLMは自分でコードを「書く」ことができるんだよ。もし学生が試験中に一般的な微分のためのソフトウェアプログラムを書いたら、明らかに彼らは素晴らしい概念理解を持っているだろうね。

もし学生がLLMのサイズのほんの一部のノートを参照できたら、私は納得しないだろうね。

子供でもできるパズル 確かに、ハノイの塔を8枚のディスクで頭の中だけで解くのは無理だな。毎ステップの状態をメモしたり、物理的な状態を目の前に置いておかないと無理だよ。これって、同じ基準で比べてるの?

元の論文をLLMへの非難みたいに受け取ってる人がいるのが変だな。LLMがハノイの塔の問題を高いレベルで解けないのは新しいことじゃないし、論文は以前に行われた方法を使ってただけだよ。同じ問題に対する推論モデルと非推論モデルの効果を比較してるだけなんだ。