すべては相関している (2014–23)

2025年8月22日原文(gwern.net)

概要

「すべての変数は相関している」 という統計学・心理学の経験則の紹介
Sharpな帰無仮説（相関ゼロ）の無意味さ と統計的有意性検定への批判
理論構築・因果モデル・構造モデル解釈への影響
「スパース性原理」や因果ネットワーク概念との関係
相関がない変数の疑わしさやデータ品質問題への示唆

「すべての変数は相関している」現象と統計理論への影響

統計学や心理学で語られる「すべてが相関している」現象 俗に「crud factor」「the null hypothesis is always false」「ambient correlational noise」など多様な名称で流布
実世界データでは、見かけ上独立な変数間でも非ゼロの相関が観測される事実 巨大なデータセットでも有意な相関が現れる傾向
相関ゼロの帰無仮説はサンプルサイズが十分大きければ必ず棄却される 棄却できない場合は「データ不足」を意味し、理論の検証にならない問題
方向性予測（正か負か）の帰無仮説も有効性が低い 理論的に50%の確率で正しい方向を当てられるため、理論の裏付けになりにくい
因果モデルや構造方程式モデルの解釈を困難にする 測定誤差や潜在変数の影響で「完全なコントロール」が不可能、残余交絡の問題
「スパース性原理」との関係性 多くの変数が中心的な潜在変数（例：IQ、arousal）を介して弱く相関しあうネットワーク構造
相関の存在は因果ネットワークや潜在変数の存在を示唆 相関≠因果の典型例が多発
非相関の変数はデータ品質や測定の問題を疑うべき 測定誤差、範囲制限、選択バイアス、データのランダムノイズ、構成概念の誤りなどの可能性
現象の理論的根拠 0という値は無限の実数の中の一点に過ぎず、実世界の複雑な因果ネットワークにより完全な独立はほぼ不可能
シミュレーションによる検証 完全に独立な変数同士では「crud factor」レベルの相関はほぼ観測されない実際のデータで観測される相関は偶然ではなく、構造的な要因によるもの

統計的有意性検定と理論構築への含意

Sharpな帰無仮説の無意味化 実世界では帰無仮説（r=0）は事前に偽と分かっているため、十分なサンプルで必ず棄却
有意性検定は「既知の偽仮説」に対するp値を計算するだけ 理論検証の意味を持たない
方向性仮説も予測力が限定的 50%の確率で当たるため、理論的裏付けとしては弱い
モデル解釈・因果推論の困難さ 測定誤差や潜在変数の影響で、完全なコントロールや「純粋な効果」の推定が困難
ネットワーク構造・潜在変数の影響 主要な潜在変数が大部分の分散を説明し、周辺変数の影響は小さい介入の効果も限定的
「スパース性原理」と「すべてが相関」現象の共存 中心的な変数がネットワークのハブとして機能
「相関がない」変数の存在自体が異常信号 測定ミス、データエラー、バイアス、無意味な構成概念の疑い
アルゴリズムバイアスや「保護属性」問題への示唆 変数間の相関が避けられないため、特定属性を除外すること自体が不可能・無意味な場合も

まとめ

「すべての変数は相関している」現象は実証的・理論的に強く支持
帰無仮説検定の理論的根拠や実用的意義が大きく揺らぐ
理論構築・因果推論・データ解釈の際には、相関の普遍性とネットワーク構造を前提とすべき
相関ゼロや非有意な結果はデータや理論そのものを疑うべき重要なシグナル

ハクソク

すべては相関している (2014–23)

概要

「すべての変数は相関している」現象と統計理論への影響

統計的有意性検定と理論構築への含意

まとめ

Hackerたちの意見