AGIの定義

2025年10月27日原文(arxiv.org)

概要

AGI（汎用人工知能） の明確な定義の欠如が現状と理想のギャップを不明瞭化
本論文は 定量的フレームワーク を提案し、AGIの評価方法を提示
Cattell-Horn-Carroll理論 に基づき、10の認知領域でAIを評価
現行AIは知識領域で強みを持つが、 長期記憶など基礎認知機能に課題
AGIスコア（例：GPT-4は27%、GPT-5は57%） で進捗と課題を定量的に示す

AGIの定義と評価フレームワーク

AGI を「高等教育を受けた成人の認知的多様性・能力と同等」と定義
Cattell-Horn-Carroll（CHC）理論 を基盤にした評価手法
10のコア認知領域 （推論、記憶、知覚など）による分解評価
人間の心理測定バッテリー をAI評価用に適応
客観的・再現性のある測定 を目指すフレームワーク構築

現行AIモデルの認知プロファイル

知識集約型領域 （例：言語、事実知識）で高いパフォーマンス
基礎的認知能力 （例：長期記憶、柔軟な推論）で重大な欠陥
「ギザギザ」な認知プロファイル （領域ごとに大きな差異）
認知的多様性の不足 がAGI到達の障壁

AGIスコアと進捗の定量化

AGIスコア でAIモデルの進捗を具体的に数値化
- GPT-4：27%
- GPT-5：57%
急速な進歩 と 依然残る大きなギャップ の両方を可視化
今後のAI開発 の指針となる定量的ベンチマーク提供

今後の展望と課題

長期記憶や柔軟な推論 など、基礎認知機能の強化がAGI実現の鍵
人間の認知理論 に基づく評価の重要性
AI開発コミュニティ への定量的・体系的評価手法の提案
AGI到達までのロードマップ 構築への貢献

Hackerたちの意見

誤解しないでほしいんだけど、AIがテクノロジーに与えている影響にはめっちゃワクワクしてる。でも、「AGIって何？」っていう終わりのない議論は本当に退屈だよね。量子についての公の議論を思い出すよ。キュービットが何かを説明しないと会話が始まらないみたいな。どんなテクノロジーにも、実際の目的地はないんだよね。改善のプロセスだけがある。唯一の明確なポイントは、テクノロジーが時代遅れになる時だけど、それでもそのノスタルジーを祝うことで生き続ける。AIはこれからも進化し続けるし、もっと多くのワークフローが自動化されるよ。どんなに進歩が早くても、私たちはまだ水の中のカエルみたいなもんだね。

└

同意するよ。大学レベルの哲学の授業を受けたことがない人には面白い議論かもしれないね。意識や思考が何かっていうのは、まだまだ大きな未解決の問題だし。コメント欄で自分の新しい解決策を持ってる人たちを見ると、400年前にすでに提起されてることばかりでちょっと悲しくなる。こういう投稿は、確実にHackernewsの最悪な部分だね。

SAGIっていうのがあるよ：Stupid Artificial General Intelligence。実際にはかなり一般的なんだけど、動き方が違うんだ。一部の分野では人間よりも優れたり早かったりするけど、他の分野ではもっとバカだったりする。飛行機が鳥と全く同じように動かないけど、どちらも飛べるみたいな感じ。

└

低い敷居と高い天井の概念は結構役立つと思う。最近「AIはいつ経済を変革するのか？」で話されてたけど、TFAで使われてる「ギザギザ」の知能よりも実際には役立つよ。

└

「ナイーブ人工一般知能」っていう用語を提案したいな。これは、働いている数学者たちがよく使うし、そこそこ成功してる「ナイーブ集合論」に似てると思う。

└

いい例えだね。

GPT-5が58%？それは高すぎる気がする。GPT-5は良いけど、AGIにはまだ遠いよね。それに、ゲイリー・マーカスとヨシュア・ベンジオが同じ論文にいるのは変だな。誰が本当に書いたんだろう？著者リストは今やパフォーマンス的になってるよね。

└

AIを使ってる人なら誰でも知ってるけど、最初の90%は簡単で、次の9%はずっと難しくて、最後の1%は他の99%よりも時間がかかるんだよね。

AGIの曖昧な定義は、全ての認知能力を持つAIってことだよね。そう、曖昧だし、人によって意見が違う。この論文は「人工一般知能の具体的な定義の欠如を解決する」って約束してるけど、結局は「よく教育された大人」という曖昧な概念に頼ってる。多くの分野ではAIがすでに大人のレベルを超えているのに、これは特に奇妙だよね。これが「ギザギザ」についての話だと言えるかもしれない。AIは明らかにいくつかのスキルが欠けているからね。>「この枠組みを適用すると、現代のモデルにおける非常に“ギザギザ”な認知プロファイルが明らかになる。」でも、どんな種類の知能も、異なる問題や環境に対して測定されるときは「ギザギザ」なんだよね。だから、もしそうなら、これはAGIのための枠組みじゃなくて、特定の次元に沿ったAIを測るための枠組みだよ。もっと正直なタイトルは「キャッテル–ホーン–キャロル理論に対するAIのギザギザさを測るための枠組み」かもしれないけど、全然魅力的じゃないよね。

└

「どんな種類の知能も、異なる問題や環境に対して測定されるときは“ギザギザ”なんだ。」一方で、「共通知能」に関する研究は、異なるタイプの知能の測定が非常に高い相関を持っていることを示していると思う。いくつかの研究（文献は知らないけど）では、「一般的な共通知能」について考えるべきだと提起されている。これまでのAIの驚くべき点は、人間の知能に対してどれだけギザギザしているかってことだね。

└

へぇ。まだその論文読んでないけど、なんか変なアイデアだね。「よく教育された（現代の）大人」の基準だと、今まで生きてきたほとんどの人が一般的な知性として考えられないんじゃない？

これらの方法の問題は、人間の知性を人間の生物学から切り離して考えてることだと思う。これは間違ってるよ。人間の心に入るものは、その人の生物学的状態や何千年もかけて進化してきた生物学的サイクルにしっかり根ざしてる。機械のチェスのスキルは人間と比較できるかもしれないけど、人間の心の中で推論や相関を駆動する抽象的な感情は、論理よりも生物的なものだよ。

Hacker Newsで議論の続きを見る

ハクソク