概要
- 大規模AIモデルの「大きさ至上主義」に対する懐疑的な見方の台頭
- Fable 5の米国政府による規制がAI開発の転換点
- モデルの巨大化による知能の伸び悩みと幻覚率の増加
- 性能指標と現実の正確性とのギャップ
- 今後のAI開発における三重苦(トリレンマ)問題の提起
AIラボにおける「巨大化」への懐疑と転換点
- 主要AIラボ間で パラメータ数や学習データの無限拡大 に対する懐疑の高まり
- Claude Fable 5が 米国政府によってリリース3日後に規制、国家安全保障上の初のAI禁止事例
- 巨大モデルのリスク (単一の脱獄(jailbreak)でも禁止に至る可能性)
「大きいほど良い」神話の現状
- 世界最大級のモデルが Artificial Analysis Intelligence Index で最高スコアを獲得
- Z.aiのGLM-5.2(753Bパラメータ、約40Bアクティブ)が GPT-5.5やFable 5に僅差で迫る
- Opus 4.8やGPT-5.5は 推定1-2兆パラメータ規模 でクローズド
- MITライセンスのオープンウェイトLLM がより巨大なクローズドモデルに迫る実績
- 知能の伸び悩み(プラトー) の顕在化
「大きいほど良い」とは限らない現実
- 事実ベース・非理論的データ で学習したモデルは常に答えを出そうとする傾向
- DeepSeek V4 Pro(1.6Tパラメータ、49Bアクティブ)は AA-Omniscienceベンチマークで94%幻覚率
- 「分からない」と答えたのはわずか6%、 残りは自信満々に誤答
- GLM-5.2は28%、Opus 4.8は36%、Fable 5は48%、GPT-5.5は86%の幻覚率
- 巨大モデルほど幻覚率が高い 傾向
実例による性能比較
- Pythonの 明確な設計上の矛盾を含む質問 でテスト
- DeepSeek V4 Proは 10倍の推論トークンと長時間計算 しても誤答
- GLM-5.2は 12秒、約800トークンで即座に矛盾を指摘
- GPT-5.5やDeepSeek V4 Proは幻覚率が突出
- 巨大化により「分からない」と言えず、 複雑な論理的誤謬も見抜けない
ベンチマークと現実の乖離
- 理論上の性能(ベンチマークスコア)と現実の正確性 のギャップ拡大
- 巨大モデルのコモディティ化で 消費者がモデル選択に困難
- モデルサイズや理論性能だけで選ぶ時代の終焉
現代AIの三重苦(トリレンマ)
- 推論予算、コーパス規模、パラメータ数 の盲目的な増加への警鐘
- DeepSeek V4 Proは 3分26秒かけて誤答を生成、GLM-5.2は即座にパラドックスを認識
- AGI時代においても 巨大モデルが誤った解決策を自信満々に提示 する危険性
- 今後はモデルの巨大化路線の限界
- トレーニングや選択基準は 「生能力」「不確実性キャリブレーション/幻覚率」「計算効率」 という三重苦を考慮する必要
テスト条件と補足情報
- 両モデルとも 高推論努力・温度1 でOpenRouter上でテスト
- GLM-5.2はZ.ai(FP8精度)、DeepSeek V4 ProはBaidu Qianfan(FP8精度)で提供
- システムプロンプト:「You respond professionally. You are a highly capable coding assistant well-versed in Python.」
著作権 (c) 2026 Oliver Shrimpton. All rights reserved