思考の幻想：推論LLMの限界を理解する [pdf]

2025年6月7日原文(ml-site.cdn-apple.com)

概要

このテキストには判読不能な文字列が含まれており、内容の特定や翻訳が困難です。おそらくデータが破損しているか、エンコーディングに問題が発生しています。読みやすい日本語や英語のテキストを再送信してください。もし特定の技術情報や記事の作成を希望される場合は、テーマやキーワードを明記してください。適切な内容をいただければ、要件に沿った記事を作成できます。

ファイル破損・エンコーディングエラーについて

判読不能な文字列 が含まれるデータ
エンコーディング の問題や ファイル破損 の可能性
内容の特定・翻訳 ができない状態
再送信依頼 や テーマの明記 を推奨
正しいデータ があれば、 記事作成 や翻訳が可能

正しいデータの送信方法

テキスト形式 での再送信
PDFやWord などのファイル形式の場合は テキスト抽出 を推奨
エンコーディング をUTF-8に指定
内容やテーマ を明確に記載
技術記事の場合 は、 対象技術や用途 を明記

まとめ

本内容は 読み取り不可
再送信 または テーマ指定 を依頼
技術記事作成や翻訳 は 正しいデータ提供 が前提
ご協力をお願いいたします

ご不明点やご要望があれば、具体的にご記入ください。

Hackerたちの意見

LLMが簡単なタスクで一番うまく機能するってのと、LRMが中程度の複雑さのタスクで一番良いっての、そしてどちらも実際の複雑なタスクには成功しないってのは、知っておくといいね。

└

サルカズムを感じるかどうかわからないな。

こういうの、よく見るんだよね。質問をちゃんと定義もしないで投げかける論文。>「これらのモデルは一般化可能な推論ができるのか、それとも異なる形のパターンマッチングを利用しているのか？」推論を定義して、一般化可能を定義して、パターンマッチングを定義して。さらに、追加のクレジットとして、あなたが定義した一般化可能な推論が人間にもできることを示してみて。

└

人間があなたが定義した一般化可能な推論を行えることを示す。私は「その能力を曲線にプロットする」ことも追加したい。私の直感では、SotAモデルはすでに多くの分野で中央値の人間の能力を超えていると思う。

└

この論文の文脈では、「一般化可能な推論」とは、パズルを解く方法を見つけ、その方法を任意の複雑さのパズルインスタンスに適用できることを意味すると思う。

みんなが「AGIはすぐそこだ！」って言ってた頃を思い出すな。ガートナーのハイプサイクルがこういうのをうまく捉えてるのが面白いよね。

└

自動運転車に似てるよね。どちらもすぐそこにあるけど、曲がることができない。

└

LLMは「ジュニア開発者」のように扱い続けることになるだろうね、永遠に。

└

進捗は80%くらいまで来てると思う。簡単な部分は終わったけど、難しい部分は本当に難しくて、進展には何年もかかる。

└

何が変わったと思う？状況は数年後のAGIにとってまだかなり期待できると思うけど、もっと良くなってるかもしれない。こういう論文は、エンジニアリングの努力をどこに向けるべきかを示している学術的なものだし、克服されたものよりも簡単な課題が比較的少ないように見える。例えば、機械学習がハノイの塔を解決できることは知ってるよね。バドゥクのように根本的に複雑ではない。次に克服すべき壁は、もっと低いフェンスみたいなものだよ。それに、AIはすでにチューリングテストを通過してるし（少なくとも、あまりにも理路整然としていて合理的だから失敗する可能性が高い）。私たちはすでにAGIを達成したというかなり良い議論があって、今はAGIに人間レベルや超人レベルの知能を達成するために取り組んでいるところなんだ。

└

確かに、技術のシグモイド曲線は、変曲点の直前で最も急激に上昇するから、革新がどの時点で鈍化するかを予測するのは難しいよね。初代ボーイング747が登場したのは1968年で、初めての有人飛行からたった65年後のことだよ。当時の人に、次の57年間で民間航空が根本的にあまり変わらないって言ったら、誰も信じなかっただろうね。

└

…でも、それって、2年前の話じゃない？もしGPT2からAGIに10年で進化したら、それでもめちゃくちゃ早いって感じるよ。

Hacker Newsで議論の続きを見る

ハクソク

思考の幻想：推論LLMの限界を理解する [pdf]

概要

ファイル破損・エンコーディングエラーについて

正しいデータの送信方法

まとめ

Hackerたちの意見