世界を動かす技術を、日本語で。

すべては相関している (2014–23)

概要

  • 「すべての変数は相関している」 という統計学・心理学の経験則の紹介
  • Sharpな帰無仮説(相関ゼロ)の無意味さ と統計的有意性検定への批判
  • 理論構築・因果モデル・構造モデル解釈への影響
  • 「スパース性原理」や因果ネットワーク概念との関係
  • 相関がない変数の疑わしさやデータ品質問題への示唆

「すべての変数は相関している」現象と統計理論への影響

  • 統計学や心理学で語られる「すべてが相関している」現象 俗に「crud factor」「the null hypothesis is always false」「ambient correlational noise」など多様な名称で流布

  • 実世界データでは、見かけ上独立な変数間でも非ゼロの相関が観測される事実 巨大なデータセットでも有意な相関が現れる傾向

  • 相関ゼロの帰無仮説はサンプルサイズが十分大きければ必ず棄却される 棄却できない場合は「データ不足」を意味し、理論の検証にならない問題

  • 方向性予測(正か負か)の帰無仮説も有効性が低い 理論的に50%の確率で正しい方向を当てられるため、理論の裏付けになりにくい

  • 因果モデルや構造方程式モデルの解釈を困難にする 測定誤差や潜在変数の影響で「完全なコントロール」が不可能、残余交絡の問題

  • 「スパース性原理」との関係性 多くの変数が中心的な潜在変数(例:IQ、arousal)を介して弱く相関しあうネットワーク構造

  • 相関の存在は因果ネットワークや潜在変数の存在を示唆 相関≠因果の典型例が多発

  • 非相関の変数はデータ品質や測定の問題を疑うべき 測定誤差、範囲制限、選択バイアス、データのランダムノイズ、構成概念の誤りなどの可能性

  • 現象の理論的根拠 0という値は無限の実数の中の一点に過ぎず、実世界の複雑な因果ネットワークにより完全な独立はほぼ不可能

  • シミュレーションによる検証 完全に独立な変数同士では「crud factor」レベルの相関はほぼ観測されない 実際のデータで観測される相関は偶然ではなく、構造的な要因によるもの

統計的有意性検定と理論構築への含意

  • Sharpな帰無仮説の無意味化 実世界では帰無仮説(r=0)は事前に偽と分かっているため、十分なサンプルで必ず棄却

  • 有意性検定は「既知の偽仮説」に対するp値を計算するだけ 理論検証の意味を持たない

  • 方向性仮説も予測力が限定的 50%の確率で当たるため、理論的裏付けとしては弱い

  • モデル解釈・因果推論の困難さ 測定誤差や潜在変数の影響で、完全なコントロールや「純粋な効果」の推定が困難

  • ネットワーク構造・潜在変数の影響 主要な潜在変数が大部分の分散を説明し、周辺変数の影響は小さい 介入の効果も限定的

  • 「スパース性原理」と「すべてが相関」現象の共存 中心的な変数がネットワークのハブとして機能

  • 「相関がない」変数の存在自体が異常信号 測定ミス、データエラー、バイアス、無意味な構成概念の疑い

  • アルゴリズムバイアスや「保護属性」問題への示唆 変数間の相関が避けられないため、特定属性を除外すること自体が不可能・無意味な場合も

まとめ

  • 「すべての変数は相関している」現象は実証的・理論的に強く支持
  • 帰無仮説検定の理論的根拠や実用的意義が大きく揺らぐ
  • 理論構築・因果推論・データ解釈の際には、相関の普遍性とネットワーク構造を前提とすべき
  • 相関ゼロや非有意な結果はデータや理論そのものを疑うべき重要なシグナル

Hackerたちの意見

相関してるね。他には?「すべては相関している」 - https://news.ycombinator.com/item?id=19797844 - 2019年5月(コメント53件)

相関してるってこと?

記事は、あの情報と知恵の標準的なコンペンディウム、『銀河ヒッチハイク・ガイド』の引用を入れるチャンスを逃したね。 > 「宇宙のすべての物質は、他のすべての物質に何らかの形で影響を受けているので、理論的には創造の全体を推測することが可能です。すべての太陽、すべての惑星、その軌道、構成、経済的・社会的歴史を、例えば小さなフェアリーケーキの一片から導き出すことができます。」

これが成り立つためには、宇宙のT_zero構成が必要じゃない?物質やエネルギーのT_zero構成が違えば、T_currentも違うし、同じ物理的構成(位置+エネルギーなど)に至るための道筋もいくつもあるよ(ケーキを除いた宇宙の構成)。それに、全く非決定論的なプロセスが起こっていないと仮定してるしね。

仏教では因縁生起っていうのがあるよね。: https://en.wikipedia.org/wiki/Prat%C4%ABtyasamutp%C4%81da

粒子は運命に縛られてるわけじゃないよね?

この記事はめっちゃボリュームあるね。ああいう論文をサクサク書ける能力があればいいのに。あの人のウェブサイトの他のコンテンツを見ると、まるで機械みたいだね。

gwernはすごいよね

確か、Gwernはどこかの遠い場所で超質素な生活をしていて、そのおかげでプライベートな研究にたくさんの時間を使えるんだよね。

たくさんの時間、何度も試行、難しい問題に対する親和性、研究(とHaskell)に関するちょっとした専門知識。あ、あと誰かがその小さな試みを資金提供してくれるとさらに助かるよね :)

そんなことが読めるようになったらいいな。

人々は昔から世界の真実を発見するために統計を使っていたわけじゃない。これが発展したのは、たまたま役立つ方法だったから。でも、その方法の乱用や、知性を装った愚かさの蔓延を考えると、常に疑問を持つのは大事だし、今回はこの相関ノイズの観察を通じてね。論理やドメインに関する基本的な知識がまず必要だよ。ただ物を数えるだけじゃなくて、少なくとも一つか二つの別の方法で理解することが大事。そうしないと、誤解を招く結論に至る誘惑があるから。

ジョージ・ルーカスの引用があって、新しいものが社会に入ってくると、人々はそれをやりすぎる傾向があるって話してる。https://www.youtube.com/watch?v=VEIrQUXm_hY

人々は世界の真実を発見するために常に統計を使っていたわけではない。そして、それが原因で彼らはずっと、ずっと悪化していた。論理だけでは新しいことを学ぶことはできない。論理ができるのは、既に知っていることを再表現することだけだ。基本的な知識は経験や実験から得られるもので、それは統計的な視点を通して解釈する必要がある。なぜなら、観察は決して完璧ではないからだ。統計がなかった時代、世界を理解するための選択肢は、(a) 裕福な人々が座って物事を深く考えること、(b) カリスマ的な人々が立ち上がって自分たちが望むことについて説教すること、または (c) 賢い人々が時々正しい推測をすることだった。統計によって、私たちは世界がどのように機能するかを学ぶプロセスを大きく機械化したし、誰でも参加できるし、自分が正しいか間違っているかを合理的に確信できるようになった。哲学者や聖職者を間違っていると証明するのは不可能だった!とはいえ、あなたの全体的なポイントには同意すると思う。統計的推論の強みの一つは、時に「相互比較」と呼ばれるもので、プロセスの違いから結論を引き出せることなんだ。これが弱点でもあって、結果を偶然にでも意図的にでも操作しやすくしてしまうんだよね。

「これにより、有意性検定の意味が不明瞭になる。これは、あらかじめ偽であることが知られているシナリオの下でデータの正確な確率を計算している。」これに問題があるとは思えない。意味のある結果を得るためには、しばしば単純化されたモデルで計算することがあるけど、それは厳密には偽であると知られているものだよね。ニュートンの法則を使ったり、電気ネットワークを単純化して分析したり、昔の銀行年度は360日だった!うまくいってるけど、何か見落としたかな?

これは定量的な問題だね。簡略化によってどれくらいの誤差が生じるのか?

問題は、金を使えば常に有意な結果が得られるってことなんだ(大きなNは常に「有意な」結果につながる)。研究を真実の追求と考えるなら、これは深刻な問題だよ。

その簡略化によって導入される最大誤差は既に知られているよ。逆に言えば、アインシュタインはニュートンの洗練版だね。特殊相対性理論は低速でニュートン運動に収束する。君は本当に何も見逃してないよ。記事は不完全で、「偽」というものが統計に存在するかのように誤って示唆している。でも実際には、何かが「偽」であるのは「実際には真である確率がx%」ということだけなんだ。つまり、xを下げたいなら「統計をもっと頑張らなきゃ」ってこと。通常、それを達成するための最良の方法は試行回数やサンプル数Nを増やすことだよ。記事が完全に間違っているのは、十分に大きなNの場合、もう気にしなくてよくなって、偽/真を絶対的なものとして使ってもいいってこと。つまり「無限の宇宙の中で一度は起こる」みたいな閾値を超えるからね。問題は、たくさんの統計が低いNで行われていることなんだ。社会科学、医学、経済は常に非常に低いNの範囲にあって、だから常に問題のある統計が出てくる。Nを増やせずに「統計をもっと頑張る」ことを試みて、望む結論を証明するために数字をちょっといじるだけなんだよね。あるいはNを少しだけ増やして、低Nの問題から逃れたと主張する。

俺がローン返済計算機を作った時、47種類の「日数計算」の方法があったんだ(未完了の返済期間の支払いを計算するのに使われる、例えば月々の支払いで、2025年8月の1日から13日までの期間は2025年8月の何分の1になるか?)。

これ、俺の一番のイライラポイントに関係してるんだ。人々は「統計的に有意」を「注目すべき」や「意味のある」と解釈するんだよね。俺は違いを感じたし、統計はそれが重要だと言ってる。これは考え方として間違ってる。有意性検定は、測定された違いが「良い測定」である確率だけを教えてくれる。ある程度の自信を持って「測定された違いは存在する」と言えるけど、その測定された違いが「意味のある」という点で有意かどうかは、我々やステークホルダーがその上に課す価値判断なんだ。通常、測定された違いの大きさに基づいて、統計的有意性ではなくてね。これ、明白に聞こえるけど、業界や多くの科学でよく見られる誤謬の一つなんだ。例えば、「この介入は[指標]においてp<0.001で向上を引き起こす。高い統計的有意性!向上率:0.000001%。」意味がある?たぶん、ないよね。

3blue1brownのこの動画がめっちゃ好きなんだ。[1] 彼は有意性を確率を更新する方法として考えることを提案してる。1つのポジティブテスト(またはこのアナロジーでは研究)が確率をX%更新するから、ほぼ常に‘意味のある’判断をするにはもっとテスト(または研究)が必要なんだよね。[1] https://www.youtube.com/watch?v=lG4VkPoG3ko

^ もしNを十分に増やせば、どこにでも‘良い測定’や‘統計的に有意な差’を見つけられるようになるよ。さらに悪いことに、事前にどの仮説をテストするかに合意していなかった場合、過去のデータをさかのぼって‘統計的に有意’な相関を探すことになる。

有意性テストは、測定された差が「良い測定」である確率を教えてくれるだけだよ。ある程度の自信を持って、「測定された差は存在する」と言える。だけど、有意性はこれを教えてくれない。p値は0に非常に近いことができるけど、同時に帰無仮説が真である確率も1に非常に近いことができる。

「統計的有意性」は驚きの尺度だと言った方がいいかな。これは「このデフォルト(帰無仮説)が真なら、これらの観察をすることにどれだけ驚くだろうか?」って言ってるんだ。

これは計量経済学の基本でもあり、因果推論の背後にある考え方でもある。計量経済学は統計的有意性だけでなく、有用性や経済的有用性も重視するんだ。因果推論は基本的な統計や機械学習に基づいているけど、その強みはデザインや仮定を使って因果関係を特定するところにある。感度分析やロバスト性チェック、反証テストみたいなツールは、因果のストーリーが成立するかどうかを評価するのに役立つよ。ただ、私が気になるのは、これらのツールがまだ基礎となる理論モデルが正しく指定されているという仮定に大きく依存していることなんだ。つまり、因果推論は仮定のストレステストを助けるけど、どの理論的枠組みがより妥当かを判断する明確な方法を提供するわけではないんだよね。

https://pmc.ncbi.nlm.nih.gov/articles/PMC3444174/ > 効果サイズを使うこと—つまりP値だけでは不十分な理由 > 統計的有意性は結果について最も興味深いことではない。結果を大きさの尺度で説明すべきだよ。つまり、治療が人に影響を与えるかどうかだけじゃなく、どれくらい影響を与えるのかってことだね。— ジーン・V・グラス

ニュアンスを加えると、そんなに悪くはないよ。合理的な統計的パワーがあれば、実験は統計的有意性を持って無意味な効果サイズを示すことはできないんだ。もちろん、役に立つ以上のパワーレベルで実験を設計する人もいるし、特にビッグデータが利用できる分野(ウェブサイト分析など)ではその傾向が強いかもしれない。でも、問題は統計的有意性自体ではなく、不合理なパワーレベルだと思う。正しく使えば、統計的有意性は実際の信号を見つけるための有用なガイドになるし、無意味な効果サイズをフィルタリングするのにも役立つんだ。統計的有意性が正しく使われていても、出版バイアスが大きな問題だよね。100の実験のうち、重要なものは7つしか見れないとしたら、見える結果の真偽比はすでに5:2になってしまうんだ—すべてが真実として提示されているのにね。

確かに、有意な効果と意味のある効果は違うよね。でも、例については少し反論したいな。非常に低いp値が必ずしも意味のある効果を示すわけではないけど、効果サイズとは無関係でもないんだ。p値は基本的にテスト統計から来ていて、これは (効果サイズ) / (ノイズ / sqrt(n)) という形なんだ。テスト統計が大きいほど、p値は小さくなるから、非常に低いp値は通常、大きな効果か非常に大きなサンプルサイズ(n)から来ることが多いんだ。だから、微小な効果でp<0.001を得ることは技術的には可能だけど、天文学的なサンプルサイズが必要なんだよね。とはいえ、ほとんどの実証研究では、p<0.001は効果が大きいことを示唆することが多いよ。サンプルサイズには実際的な限界があるからね。

同意するけど、「小さな不満」と呼ぶにはちょっと甘すぎると思う。これは統計に対する病的な誤解で、特に人気のあるウェルネスメディアで多くの悪い結果を招いてる。例えば、人気メディアで引用される健康や栄養に関する研究記事を読んでみると、「統計的有意性」を達成しているにもかかわらず、効果サイズがかなり弱いことが多い。人々はその研究に基づいてライフスタイルや習慣を大きく変えてしまうけど、その変更を正当化するものではないんだよね。

参考までに、こちらが https://en.wikipedia.org/wiki/Effect_size

ほんとに典型的な「合理主義者」スタイルの文章だね。統計現象に関する正しい観察が混ざったスープに、変な政治的なバカ話がちょいちょい入ってる感じ。例えば、「もっと現代的な観点から言うと、これらの理論的・経験的考察は、‘アルゴリズムバイアス’や‘保護されたクラス’に基づく推論に対する懸念に疑問を投げかける。」っていうのがあるけど、これってめちゃくちゃ奇妙な文だよね。説明もなく、引用もないまま投げ込まれてるし。要するに、「犯罪性を決定する隠れた潜在変数があって、私たちはそれとの相関から逃れられないから、誰かが仮釈放されるかどうかを決めるブラックボックスモデルに‘is_black’を使うのは大丈夫?」ってことかな?馬鹿げてる。これで本当に「懸念すべきかどうか」に疑問を投げかけてるの?モデルの動作に関する懸念は、作成や解釈の統計的課題よりも深いんだよね。モデル選択プロセスに含まれる自由度が、私たちが望むことを何でもできるモデルを構築することを可能にするから。もし「likes_hiphop」を説明変数として含む仮釈放モデルを見たら、誰がそれを入れることにしたのか、そして「最高のモデルを作る」以上の目的があったのかを自問すべきだよね。すべてが相関しているという懸念は、私たちが何をどうモデル化し、どの変数に基づいているかの政治的影響をもっと慎重に理解する必要があることを示している。ほとんどの非自明なケースでは、モデルは少なくとも部分的には政治的な対象であり、ほぼ確実に世界がどうあるべきかという概念で装飾されているから。

これってめちゃくちゃ奇妙な文だよね。投げ込まれ方が説明もなくて、文脈の中で自然に読めるし、前のテキストで説明されてるよ。例えば、「これらの理論的・経験的考察」っていうのは、上で説明された理論的・経験的考察を指してる。基本的なアイデアは、すべてが相関しているから、相関だけを見てそれが偶然以上のものだと推測することはできないってこと。政治的な影響は全然「変」じゃなくて、自然に続いてる。著者は社会科学者が複雑なモデルを構築し、膨大な変数を観察することで、自分の仮説を支持する相関を見つけることができると指摘してる。でも、これらの相関は、どこにでも見つけられるから、提示されているほど確固たる証拠ではないんだ。 > 要するに、「犯罪性を決定する隠れた潜在変数があって、私たちはそれとの相関から逃れられないから、誰かが仮釈放されるかどうかを決めるブラックボックスモデルに‘is_black’を使うのは大丈夫?」ってことじゃない?全然違うよ。その暗示は、たとえそれが黒人に対して異なる影響を持っていると観察されても、ブラックボックスモデルに‘is_black’変数が実際に含まれているとは結論できないってことなんだ。

「合理主義者」って、なんか人やグループをランク付けするのが好きみたいだね。変なことに、彼らは遺伝やIQについての結論を出すために、あまり良くない研究や力不足のデータをよく使ってるんだよね。

そう、これがgwernそのものだね。r/iamverysmartの長文で圧倒しつつ、根拠のない推測や意見を事実として巧妙に挿入してる。提供された参考文献がそれもカバーしてるかのようにね。変なことに、スケーリングやAIのコミュニティは彼を好きみたいだ。

例えば: 「より現代的な観点から、これらの理論的および経験的考察は、‘アルゴリズムバイアス’や‘保護されたクラス’に基づく推論に対する懸念に疑問を投げかける。これらを考慮しないことが望ましくない、可能でない、あるいは意味がない場合もある。」良い、簡潔な社会科学のモデルは理論的なコミットメントを必要とすると思うけど、TFAがその時々の政治的な原因について同じことを言うかどうかが試されるんだよね。例えば、少数派コミュニティにアプローチする組織での採用におけるis_whiteについて。

実験科学が観察研究と違う理由はこれだね。統計分析は、ある仮説を他の仮説より信じる理由を提供するけど、どんな科学者も実験的アプローチを使ってその理由を広げるんだ。この記事で挙げられている例のほとんどは、医学、社会学、行動研究に関するもので、適切にコントロールされた実験を行うのが難しいから、真の因果関係を明らかにするには力不足になりがちなんだよね。

私もそう思った。少なくともミクロ経済学は大規模な観察研究から離れて、実験的および準実験的研究に移行している。方法だけではすべてを解決できないけど(結局「デザインで失敗したことを分析で修正することはできない」からね)、バイアスのない結果に近づくことができる。

こういう議論は何十年も前からあったよね。重要なことを忘れないようにするのは大事だと思う。でも、仕事でこの問題に向き合う中で、だんだん空虚で役に立たない気がしてきた。「クソ」みたいなことはパターンで起こることもあるけど、無意味ではないんだよね。時には理解することが重要だけど、そう捉えることが誰の役にも立たないこともある。分解しようとすると説明が難しい関連性もあれば、制御すべき無関係な要素を理解するための鍵になることもある。背景にある関連性は確かに存在するけど、常にあるわけじゃない。時には全く関連性がないこともあるし、ゼロじゃない「意味のある」効果サイズを考え出そうとするのはかなり恣意的で主観的だよね。現象を捉えるもっと生産的な方法があると思う。

話題には触れないけど、なんて美しいブログなんだろう。あのドロップキャップ、右側に表示される大きな画面用のインラインコメント、進捗バー、シェフのキス。これが愛のプロジェクトってやつだね。

gwernのドロップキャップの記事に興味があるかも: https://gwern.net/dropcap