「Appleの論理に関するウイルス的な論文への7つの反論とその限界」

2025年6月15日原文(garymarcus.substack.com)

概要

Appleの論文がLarge Reasoning Models（LRMs）の推論限界を明らかにし、スケーリング仮説に疑問を投げかけた事例
メディアやSNSで大きな反響、専門家や一般層も議論活発化
反論も多いが、決定的な説得力には欠ける
LLMのアルゴリズム的信頼性や一般化能力の問題が浮き彫り
今後のAGI達成には新たなアプローチが必要との指摘

Apple論文が引き起こした議論とその意義

Appleの論文 が Large Reasoning Models（LRMs） の推論能力の限界を指摘、スケーリング仮説に挑戦状
多数の メディア、SNSで大きな話題、専門家から一般層まで幅広い反響
筆者の解説記事も 15万超の読者 を集め、The GuardianやACMなどで転載・翻訳
GenAI楽観論者からの反論も多様、内容は細かい指摘から本質的議論まで幅広い
主要な反論を検証し、どれも決定打に欠けると結論

主な反論とその評価

「人間も複雑な問題や記憶で失敗する」
- 部分的には正しいが、 機械には人間以上の正確性や能力 を期待するのが当然
- LLMは既存のシンボリックAIよりも後退している場面もあり
- 「人間もミスするからAIも許容せよ」は本質的なすり替え
「出力トークン数が足りないから解けない」
- 一部正しいが、 Hanoi 8枚盤など十分短い場合も失敗
- シンボリックAIはこの問題を持たず、AGIも克服すべき課題
- LLMの長さ制限は本質的なバグ
「筆頭著者がインターン」
- アドホミネム（人身攻撃）であり、 論文の質や共同著者の専門性 で反論可能
- 科学界での著者順の慣習や過去の偉大な発見例も挙げ、反論の無意味さを指摘
「より大きなモデルなら解ける」
- 一部正しいが、 どのモデルがどの問題に十分かは事前に分からない
- 問題サイズやバリエーションで突然失敗する例も多く、 信頼性の低さ が浮き彫り
- 常に全タスクで検証が必要になる「賭博」状態
「コード生成なら解ける」
- コード生成成功は ニューラル＋シンボリックAIの有効性 を示すが、汎用性や信頼性は未達
- Apple論文の主目的は 概念的理解や探索能力の評価 であり、コードの利用では本質を問えない
- 新規問題や動的環境ではコードダウンロードだけでは不十分
「例が少なく、完璧でない」
- 4例でも 過去の多くの研究と整合的なエビデンス を提示
- 他にも同様の失敗例が次々と報告されており、今後も増加が予想される
「既知の一般化困難性」
- 既知だが、 なぜこれらのモデルがAGIへの近道と見なされてきたのか 再考を促す
- 今回の論文でようやく大衆の注目が集まり、AIの「アキレス腱」が議論され始めた

スケーリング仮説への疑問と今後の展望

Salesforceの新論文 でも、推論やアルゴリズム的精度が35%に留まるなど、Apple論文と同様の課題が露呈
これらの結果から、 現状の技術は信頼に足りない ことが明確
NYU名誉教授Gary Marcusも「スケーリングだけではAGIに到達しない」と強調
今後は ニューラルネット＋シンボリックAIの統合 や、新たなアプローチの必要性が高まる

Hackerたちの意見

こんな記事を読むと嬉しいな。ハイプサイクルに水をかけるのって大事だと思う。新しいAIツールを本気で使いたいなら、現実を見てその能力について真剣に考えないとね。確かに印象的だし、役に立つことも多いと思う。でも、こんな風にハイプを続けるのは良くないよ。結局、これにお金を投資してる人たちだけが得するだけだから。

└

これらのツールに投資してる人たちにとっても、ハイプはポンプアンドダンプを狙ってる人や、AIに関するトレーニングやコンサルティングを売ってる人にしか利益がないよ。本当に進展を目指してる人たちは、今お金があるうちに、またAIの冬が来るかもしれないってことを考えなきゃいけないかもね。

└

テストトレインスプリットが何かを知ってる人からの批評は受け入れるよ。機械学習からかなり離れた人が、その能力について何か関連性のあることを言うっていうのは、AIに対する恐れの状態を物語ってるね。

└

ギャリー・マーカスは「現実を見つめる」っていうより、人気のあるAIのストーリーに対する反対派として名を上げようとしてるだけだよ。この文章は一見合理的に見えるけど、彼が以前の論文で「LLMに対するノックアウトブロー」と呼んでたものを擁護してるんだ。彼の多くの記事は一見合理的（ちょっとおかしいけど）に見えるけど、数十本読んでトレンドに気づくと、そうでもないってわかるよ。

└

「HNの不屈の楽観主義」と「Appleからの悪いニュースの論文」がこんな風にぶつかるのって、なんか本質的に面白いよね。止められないものが壊れない壁に向かって突進してる感じで、何が起こるかわからない。

└

AIがハイプされてるって言う人の気持ちがわからない。今のAIはほとんど何でも会話できるレベルに達していて、90%の人よりも賢く答えてくれるんだ。それってすごく印象的で、普通の人はそれに説得される必要なんてないよ。自然に感心してるだけなんだから。

└

実際にどれくらい役に立つの？もう1年以上、これらのことを言ってるけど、どこに成果があるの？試せる新しいオフィススイートはある？10倍のモバイルアプリ？巨大な新しい電子書籍ライブラリ？実際には、ジブリのミームやRETVRNのノスタルジー以外のものを生み出してるの？

└

自然にLLMにはかなり疑いを持ってる。彼らが書くコードの大半はクソだし、あんまり好きじゃないし、使うことも少ないけど、時間が経てばかなり役立つようになると思ってる。とはいえ、マーカスはディスコースにいるべきじゃないバカだ。彼がいると有意義な意見が埋もれちゃう。彼が書くことは、AIに反対の人たちにとっては誇張された赤肉みたいなもんだ。「尊厳の洗浄」だよ。彼をソースとして指摘することで、彼を有効な情報源として持ち上げてる。

もし他の人が元の論文（とその議論）を見逃してたら: https://news.ycombinator.com/item?id=44203562

└

ありがとう！マクロ拡張: 思考の幻想: 推論モデルの強みと限界 [pdf] - https://news.ycombinator.com/item?id=44203562 - 2025年6月（269コメント）これも: LLMに対するノックアウトブロー？ - https://news.ycombinator.com/item?id=44215131 - 2025年6月（48コメント）他にあった？

Salesforceの論文からの引用は重要だよね。「エージェントはほぼゼロの機密性意識を示した」。

重要なポイントは、LLM（大規模言語モデル）がトレーニングデータで似たような解決策を見たときに「推論」できるけど、本当に新しい問題に対してはうまくいかないってこと。正確には推論とは言えないけど、多くの状況では役に立つくらいのものだよね。要求に応じて解決策を繰り返すのは便利だし、事実を繰り返すのも便利だよね。マーカスは技術的には正しいけど、明確な説明よりも感情的な議論に偏りすぎてる気がする。

Hacker Newsで議論の続きを見る

ハクソク

「Appleの論理に関するウイルス的な論文への7つの反論とその限界」

概要

Apple論文が引き起こした議論とその意義

主な反論とその評価

スケーリング仮説への疑問と今後の展望

Hackerたちの意見