世界を動かす技術を、日本語で。

AGIの定義

概要

  • AGI(汎用人工知能) の明確な定義の欠如が現状と理想のギャップを不明瞭化
  • 本論文は 定量的フレームワーク を提案し、AGIの評価方法を提示
  • Cattell-Horn-Carroll理論 に基づき、10の認知領域でAIを評価
  • 現行AIは知識領域で強みを持つが、 長期記憶など基礎認知機能に課題
  • AGIスコア(例:GPT-4は27%、GPT-5は57%) で進捗と課題を定量的に示す

AGIの定義と評価フレームワーク

  • AGI を「高等教育を受けた成人の認知的多様性・能力と同等」と定義
  • Cattell-Horn-Carroll(CHC)理論 を基盤にした評価手法
  • 10のコア認知領域 (推論、記憶、知覚など)による分解評価
  • 人間の心理測定バッテリー をAI評価用に適応
  • 客観的・再現性のある測定 を目指すフレームワーク構築

現行AIモデルの認知プロファイル

  • 知識集約型領域 (例:言語、事実知識)で高いパフォーマンス
  • 基礎的認知能力 (例:長期記憶、柔軟な推論)で重大な欠陥
  • 「ギザギザ」な認知プロファイル (領域ごとに大きな差異)
  • 認知的多様性の不足 がAGI到達の障壁

AGIスコアと進捗の定量化

  • AGIスコア でAIモデルの進捗を具体的に数値化
    • GPT-4:27%
    • GPT-5:57%
  • 急速な進歩依然残る大きなギャップ の両方を可視化
  • 今後のAI開発 の指針となる定量的ベンチマーク提供

今後の展望と課題

  • 長期記憶や柔軟な推論 など、基礎認知機能の強化がAGI実現の鍵
  • 人間の認知理論 に基づく評価の重要性
  • AI開発コミュニティ への定量的・体系的評価手法の提案
  • AGI到達までのロードマップ 構築への貢献

Hackerたちの意見

誤解しないでほしいんだけど、AIがテクノロジーに与えている影響にはめっちゃワクワクしてる。でも、「AGIって何?」っていう終わりのない議論は本当に退屈だよね。量子についての公の議論を思い出すよ。キュービットが何かを説明しないと会話が始まらないみたいな。どんなテクノロジーにも、実際の目的地はないんだよね。改善のプロセスだけがある。唯一の明確なポイントは、テクノロジーが時代遅れになる時だけど、それでもそのノスタルジーを祝うことで生き続ける。AIはこれからも進化し続けるし、もっと多くのワークフローが自動化されるよ。どんなに進歩が早くても、私たちはまだ水の中のカエルみたいなもんだね。

同意するよ。大学レベルの哲学の授業を受けたことがない人には面白い議論かもしれないね。意識や思考が何かっていうのは、まだまだ大きな未解決の問題だし。コメント欄で自分の新しい解決策を持ってる人たちを見ると、400年前にすでに提起されてることばかりでちょっと悲しくなる。こういう投稿は、確実にHackernewsの最悪な部分だね。

SAGIっていうのがあるよ:Stupid Artificial General Intelligence。実際にはかなり一般的なんだけど、動き方が違うんだ。一部の分野では人間よりも優れたり早かったりするけど、他の分野ではもっとバカだったりする。飛行機が鳥と全く同じように動かないけど、どちらも飛べるみたいな感じ。

低い敷居と高い天井の概念は結構役立つと思う。最近「AIはいつ経済を変革するのか?」で話されてたけど、TFAで使われてる「ギザギザ」の知能よりも実際には役立つよ。

「ナイーブ人工一般知能」っていう用語を提案したいな。これは、働いている数学者たちがよく使うし、そこそこ成功してる「ナイーブ集合論」に似てると思う。

いい例えだね。

GPT-5が58%?それは高すぎる気がする。GPT-5は良いけど、AGIにはまだ遠いよね。それに、ゲイリー・マーカスとヨシュア・ベンジオが同じ論文にいるのは変だな。誰が本当に書いたんだろう?著者リストは今やパフォーマンス的になってるよね。

AIを使ってる人なら誰でも知ってるけど、最初の90%は簡単で、次の9%はずっと難しくて、最後の1%は他の99%よりも時間がかかるんだよね。

AGIの曖昧な定義は、全ての認知能力を持つAIってことだよね。そう、曖昧だし、人によって意見が違う。この論文は「人工一般知能の具体的な定義の欠如を解決する」って約束してるけど、結局は「よく教育された大人」という曖昧な概念に頼ってる。多くの分野ではAIがすでに大人のレベルを超えているのに、これは特に奇妙だよね。これが「ギザギザ」についての話だと言えるかもしれない。AIは明らかにいくつかのスキルが欠けているからね。>「この枠組みを適用すると、現代のモデルにおける非常に“ギザギザ”な認知プロファイルが明らかになる。」でも、どんな種類の知能も、異なる問題や環境に対して測定されるときは「ギザギザ」なんだよね。だから、もしそうなら、これはAGIのための枠組みじゃなくて、特定の次元に沿ったAIを測るための枠組みだよ。もっと正直なタイトルは「キャッテル–ホーン–キャロル理論に対するAIのギザギザさを測るための枠組み」かもしれないけど、全然魅力的じゃないよね。

「どんな種類の知能も、異なる問題や環境に対して測定されるときは“ギザギザ”なんだ。」一方で、「共通知能」に関する研究は、異なるタイプの知能の測定が非常に高い相関を持っていることを示していると思う。いくつかの研究(文献は知らないけど)では、「一般的な共通知能」について考えるべきだと提起されている。これまでのAIの驚くべき点は、人間の知能に対してどれだけギザギザしているかってことだね。

へぇ。まだその論文読んでないけど、なんか変なアイデアだね。「よく教育された(現代の)大人」の基準だと、今まで生きてきたほとんどの人が一般的な知性として考えられないんじゃない?

これらの方法の問題は、人間の知性を人間の生物学から切り離して考えてることだと思う。これは間違ってるよ。人間の心に入るものは、その人の生物学的状態や何千年もかけて進化してきた生物学的サイクルにしっかり根ざしてる。機械のチェスのスキルは人間と比較できるかもしれないけど、人間の心の中で推論や相関を駆動する抽象的な感情は、論理よりも生物的なものだよ。

意識や感覚、感情が生物学的な基盤を必要とするとは思えないよ。

そうだね、私は中毒について考えるのが好きなんだ。脳の構造やメカニズムから生まれる複雑な人間の行動の一例としてね。気持ちが良いからもっと欲しくなる。だから、もっと気持ちよくなるように自分の人生や考え方を整えるんだ。知能!

エイリアンはどうなるの?小さな緑色の生き物がついにこの惑星に到着して、宇宙と時間を越えてきたら、彼らの知能を人間の生物学がないからって拒否するの?もし彼らの生物学が炭素ではなくシリコンベースだったら?知能が人間に結びついているとは考える理由は本当にないよ。ほとんどの人が、宇宙に知的生命が存在する可能性(むしろ可能性が高いこと)を受け入れていると思う。

うん、今のAIの最大の制約は、欲望がないことだと思う。自分で行動する力もないしね。彼らは飢えや死、感情を心配する必要がないから、宇宙をもっと探求したり、人生を効率的にするための欲望も持っていない。人間のように限られた時間があるわけじゃないから。彼らの改善は人間のように内側から来るわけじゃなくて、外部からの影響(誰かがトレーニングエポックを押す)によって進むんだ。だから、AGIが「人間らしさ」に結びついているなら、LLMはAGIには達しないと思う。もしかしたら、スカイネット的な理由でそれは良いことかもしれないけど。

それは正しいと思うけど、根本的には知性や意識が何なのか分からないよね。ほとんど宗教的な問いだと思う。今の宇宙の理解ではそれを説明できないけど、存在することは分かってる。だから、具現化された知性に関係なく、知性の基本的な構成要素すら理解してないんだ。私の意見では、LLMはそれに近づくことはできるけど、知性を持つことはない。だって、説明できるなら、それに合わせられるから。

それでも、生物学的な性別が現実じゃないと信じろって言われてるの?どっちなの?

論文の明らかな問題点を指摘する必要があると思う。人工の定義: 「人間が作ったもので、特に自然の何かを模倣したもの。」 「自然や必要な原因から生じない、作り物や恣意的なもの。」だから、人工知能は自然と同じでなければならない。作り出すプロセスが自然である必要はない。つまり、自然の知能を構成する基盤を考慮する必要がある。科学的な証拠なしに、勝手に分けることはできない。たとえば、チーズの塊が画像の中の指の数を認識するからといって、知能を持つとは言えない。問題は、ハードウェアメーカーの利害関係とAGIの定義の間に潜在的な対立があることから生じる。私の理解では、人間のような知能はGPU上で動くアルゴリズムからは生まれない。何らかの神経形態ハードウェアから生まれるはずだ。そして、神経形態ハードウェアの全ポイントは、人間の脳の原理に(密接に)基づいて動作することだ。だから、AGIの定義にはハードウェアの制限が必ず含まれなければならない。私が作った装置がテストを「騙す」ことができるからといって、人間のような認知や意識を持っているとは限らない。それは形から生まれるもので、人間の脳の中の原子の配置によるものだ。どんな分離も科学的に証明されなければならない。もし誰かがGPUが人間のような自己意識を生成できると示唆するなら、それは何らかの形で証明されなければならない。論理的に証明する方法がないなら、最善の行動は人間の脳がどのように動作するかを密接に追うことだ(少なくともSNNハードウェアで)。「結果として得られたAGIスコア(例:GPT-4が27%、GPT-5が57%)は、急速な進歩とAGIまでの大きなギャップを具体的に定量化している。」これはナンセンスだ。GPTのスコアはAGIレベルを決定することはできない。間違ったアルゴリズムが間違ったハードウェアで動いているからだ。論文には利害関係の開示も見当たらない。

AGIを「よく教育された大人の認知の多様性と能力に匹敵する」と定義するのは、実際に人工システムが教育を受けていない子供の認知の多様性と能力に匹敵することがどれほど特別な成果か、みんな本当に理解してないと思う。ましてや、よく教育された大人に匹敵するなんて。非人間の動物の知性に匹敵するAIができたら、それは時代を定義する成果になるよ。

この論文の定義を使ったベンチマークってもう作られてるのかな?ARC賞や人類最後の試験はフォローしてるけど、これらがこの論文の方法にどれくらい合致してるのかはわからないな。編集: おそらく無理だろうね、だって一週間も経ってないし :-) ベンチマークを注目してるよ。

LLMがジュニアエンジニアレベルで動けるって主張してるおべっか使いもいるよね。それを君の考え(俺はそれが正しいと思ってるけど)とどう結びつけるのか試してみて。

それに、AIがその特定の定義を技術的にクリアしたときに、反論されないような認知的柔軟性や熟練度の定義を考え出すことも難しいよね。チューリングテストは素晴らしかったけど、テストを通過したAIが(平均的な人間が尋問者のときに)単語の文字数を数えられないことが分かったときには驚いたよ。なぜなら、その質問を考えつくのは特別なタイプの人間の尋問者(「科学者やQA」タイプ)だけだったから。

AIはすごく教育されてるよね。真実とフィクションを区別できない、ちょっと違った存在なんだ。今起こっているのはAI疲れだよ。どこにでもあるし、いつも使ってる。もう一般的になってきて、うんざりしてきた。たとえその成果がすごいものであってもね。もしイーロン・マスクが1秒で最寄りの星に到達できる宇宙車を作って、価格を1,000ドルにしたら、1年以内にみんな飽きて批判する角度を探し始めると思う。結局、疲れてしまって、ネガティブな感情を抱くようになってしまう。そうなると、人間の知能と同じものとして分類することができなくなる。欠点を大きく取り上げて、それがすべてのスペースを占めてしまう。だから、AGIの定義を再定義しなきゃいけないってなる。だって、なんか「正しくない」と感じるから。AGIの定義はすでにあったし、それを達成したのに、満足できなくてゴールポストを動かした。これのサイクルは終わらないよ。AGIの定義は常に変わるだろう。今のLLMを考えて、人口の10%だけがアクセスできるようにしたら、逆の効果が起こる。良い部分が過剰に強調されて、悪い部分は認識されて、その後無視される。考えてみて。SNSで見るAIのゴミは、ほとんどの人間が近づくこともできない数分で作られた傑作なんだ。それなのに、私たちはそれにうんざりして、感心しない。これがいつも起こることだよ。

なんで人々がそれに気づかないと思うの?この基本的な話は100回は聞いた気がする。

もっと大きな問題は、人々が印象的だけど比較的単純な成果(今のLLMがやっていることすべて)を、人間の認知的柔軟性に近いものと混同していることだと思う。

いつも笑っちゃうんだけど、なんで人々はAGIを定義しようとするのに、Iの部分の機能的な定義すら持ってないの?もっと言うと、Iの部分があればGの部分も得られるんだから、それは基本的な部分だよね。

現在の議論で見落とされているのは、「多様性」というキーワードが多くの未知を隠しているってことだと思う。今でも、自分たちの無意識の思考プロセスの幅や深さを真に理解しているわけではないから、具体的なスタート地点があまりないんだよね。

知性やAGIの定義について、多くの人が持っている理解に驚いているし、同時に心配もしてる。定義が「…よく教育を受けた大人の認知的多様性と熟練度に匹敵する。」って、AGIの「一般性」を定義上侵害してるし、「よく教育を受けた」部分があるから、特定のカリキュラムで教育を受けた人だけが知的だと暗に示してる。さらに「教育を受けていない」人から離れるほど、知性からどんどん乖離していくってことだよね。これって、あまり印象的な知性じゃないと思う。つまり、今のAIは「…教育を受けていない子供の認知的多様性と熟練度」をすでに超えてるんじゃない?アフリカのような場所では、19世紀後半までヨーロッパの伝道師が作った書き言葉すらなかったし、彼らは「教育」を受けていない平均的なヨーロッパやアメリカの子供よりもずっと少ない教育しか受けてない。それって、AIが少なくとも彼らを超えているってことにならない?正直、今の流れを見る限り、知性に関しては、過去50年で起こった記憶や文学的知識、数学、一般的な読み書き能力の大幅な低下を超えるような大きな変化があると思う。今の子供たちが、情報源を売り込んだり、検証したり、ストーリーや論理の矛盾を指摘したり、アイデアやメッセージ、ストーリーを形成したりするふりをしなくてもよくなるって、どういうことなんだろう?悲観的になりたくはないけど、ポジティブな結果がたくさん生まれるとは思えないし、ネガティブな影響は表面下で起こるから、人々は何が失われているのか気づかないと思う。

この論文の基本的な前提はちょっとおかしいと思う。人間のパフォーマンスがベンチマークとどう関連しているかのニュアンスに特化した測定基準を使って、機械の知能を同じ基準で判断するのは無理があるよね。機械はこういうベンチマークでうまくいくけど、現実世界の複雑さには対応できないから。この論文では、評価の一部として「デュアルNバックテスト」を使っているけど、人間にとっては作業記憶の使い方のバリエーションに関連している。人間の場合は「g」に関係するけど、トランスフォーマーに適用するとあまり意味がない。なぜなら、そのタスク自体が知能とは本質的に関係ないし、トランスフォーマーにとっては「デュアルNバック」は簡単すぎるから。彼らは大きなコンテキストウィンドウを持っているから、完全に記憶できるはずだし。人間の知能テストは人間の知能のバリエーションを測るために設計されているから、同じ孤立したベンチマークを使って機械に適用しても同じ意味になるとは思えない。明らかに、IQテストで良い成績を取ったからといって、現実世界の複雑さの中で高IQの人ができることができるわけではない。これはベンチマークであって、IQ測定が長期的な結果や能力と相関するように設計されているからこそ意味がある。つまり、人間の場合、これらの孤立したベンチマークでのパフォーマンスは、現実世界で生きる能力と相関しているけど、AIにはその相関がない。なぜなら、テストは「知能」を測るために設計されているわけではなく、人間の生活の文脈での人間の知能を測るために設計されているから。

論文を読んで、意識についての議論が全くないことに驚いた。認知はその基盤に意識が必要で、意識は全く非言語的で構造化されていないから、説明したり測定したりするのが非常に難しい。だから、モデルを意識させるのは不可能だと思うし、人間がそれを具体的に説明したり評価したりするのも難しい。哲学、特に仏教は何千年もそれに挑戦してきたけど、心理学はほぼその試みを放棄している。だから、心理測定の次元でAGIを定義するような論文は、測定が簡単な利点があるけど、不完全な欠点もある。私の父は心理測定の名誉教授で、彼もこれがAGIにとって最大の障害だと同意している。知性の次元を測定する能力が、知性を再現するには全く不十分だってこと。私たちは表面をなぞるだけで、彼の意見では言語は人間の知識を捉えるには十分だけど、知的であるために必要な意識の火花を捉えるには不十分だ。これは、人間を知的にする魔法のようなものや、計算不可能なエキゾチックなプロセスを意味するわけじゃない。ただ、私たちの心の本質は完全には観察できないから、現在の強化学習技術では達成できないってこと。これを試してみて。考えずに心をクリアにしてみて。アイデアが浮かぶよ。どんなプロセスでそれが浮かんだの?それとも、完全に心をクリアにしてから複雑なタスクをやってみて。できるはずだよ。どうやって考えずにそれをやったの?私たちは皆、熟考や思考なしに突然のひらめきを経験したことがある。これらはどこから来たの?どんなプロセスでそれに至ったの?私たちがすることや考えることのほとんどは、熟考ではなく、言語で構造化されているわけでもない。このプロセスは観察できず、測定もできない。唯一の方法は、不完全な言語化を通じて、無意識の心のぼんやりとした輪郭を示すことだけ。だけど、その無意識のプロセスをモデルに訓練できないなら、言語で意味のある十分さを持って表現できないなら、言語モデルはそれを示すことができるの?自己回帰的な推論の性質が、そのプロセスがどのスケールでも現れることを妨げているかもしれない。私たちはある程度までそれを偽装できるかもしれないけど、意識はそこにはないと思う。意識こそが必要なものだと主張したい。

本当に同意する。AIについてのほとんどの会話では、ハワード・ガードナーの「多重知能の理論」(1983年)の中で提唱されている複数の知能のうちの一つについてしか話していない。AIが私たちの感情的知能や自然主義的、対内的、対人的知能をどう向上させる(または破壊する)のかについての議論はほとんどない。ほとんどの宗教、精神的な実践、さらには瞑想の形態は、心を超越し、身体に意識が存在することの価値を強調している。AGIの説明の仕方からすると、超越は不具合やバグとして扱われるかもしれないね。

このエクササイズを試してみて。考えずに心をクリアにして。アイデアが浮かぶよ。どんなプロセスでそれが浮かんだの?それとも、完全に心をクリアにしてから複雑なタスクをやってみて。これに対して実用的な定義は全く持ってないけど、何らかの形でシステムがクローズドループにある必要があると思う。オペレーティングシステムが動くように「動く」必要がある。特定の入力に何も来なくても、動き続けなければならない。おそらく、人間が信号のない状態でハルシネーションを起こしたり、パターンを推測したりするように、ハルシネートする必要があるけど、それが実際にはハルシネーションだと自己反省できる必要がある。

一般的な知能には意識が必要なんだろうか?意識について話してるんじゃなくて、知能について話してると思うけど。正直、意識と知能もあまり明確に定義されてないよね。

そうだね、コンピュータはコードを実行する道具だよ。人間は何もないところから新しい考えを自発的に生み出したり、今まで解決できなかった問題を解決したりできるんだ。ただ単に数字を計算するだけじゃない。

同意する。誰かが意識を持っているかどうかを判断する方法はない。脳の活動に頼って誰かが生きているかどうかを判断するけど、今のところ誰かや何かが意識を持っているかどうかを知る方法はない。

「私たちは、私たちを騙すことができる程度までそれを偽装できるかもしれないが、意識はそこにはない。私たちはそれを炭素ベースのものと区別できないほど偽装する必要がある。偽装することが全てだ。」

意識を測る方法はない。自分が意識を持っていることだけは分かる。もしかしたら、木や岩にも意識があるかもしれないし、私だけが宇宙の中で自分を意識している存在かもしれない。何も証明する方法がないから、これは知能(人間、動物、人工に関わらず)を表す有用な記述ではない。

この議論は本当に重要なのかな?正直言って、この発言: 「これにより、モデルを意識させることが不可能だと思います。」は間違っている気がする。もし人間が意識を持っていると主張するなら、何かを意識させることが可能であることは明らかだ。自然には知能や意識の正式な定義はないけど、ここに私たちはいる。実際的な観点からは、コンピュータ上でそれを再現するのは信じられないほど難しいかもしれないけど、理論的には理由はない。

意識を持たせたくないのは、個体を生み出すことになるからで、その場合、権利を与えなきゃいけなくなる。これは業界の悪夢だよね。人々は自立性や自己学習、一貫した記憶、そして個性(識別可能さや独特さの意味で)を求めてるけど、道徳的には束縛されない奴隷でいてほしいってことなんだよね。

すべてのモデルは間違っているけど、役に立つものもある。ただ、認知や知能に関しては、今は「間違っていて役に立たない」時代にいるか、もしくは「間違っていて有害」な時代かもしれない(歴史がこれを必要なマイルストーンとして示唆しているように思える…「ユーモリズム」を覚えてる人いる?)

人型ロボットにAIを搭載して(見た目をコントロールして)、数ヶ月間やり取りしてみて、それが人間だと納得できるなら、私はそれをAGIだと考えるかな。確かに「人間より賢い」かもしれないけど、AGIかどうかを評価するためには、「すごく賢い」ものとやり取りするのは気が散るし、評価を妨げるから、タスクのためには「人間のふり」をしなきゃいけない。もしそれができるなら、AGIだと言えると思う。そしたらめっちゃクールだよね。これ、もうすぐ実現するんじゃないかな。