CauseNet: ウェブから抽出された因果関係グラフに向けて

2025年9月2日原文(causenet.org)

概要

CauseNetは、人間の持つ 全ての因果知識 を体系化した 大規模知識ベース。因果知識と 因果信念の分離 を目指し、AI分野での因果推論研究を加速。 1,160万件超の因果関係 を高精度で抽出し、オープンドメインの因果グラフを構築。多様なウェブソースからの抽出と 豊富な証拠情報 を保持。ダウンロード・利用・拡張が可能な オープンデータ として提供。

CauseNet：全因果知識ベースの構築

CauseNetは 全人類の因果知識 を体系化・知識ベース化するプロジェクト
因果知識 と単なる 因果信念 の分離を目指す設計思想
人工知能分野 において因果知識は重要な基盤
既存の知識ベースでは 因果情報の網羅性が不足 していた現状
検証作業の困難さ が因果知識ベースの普及を妨げてきた背景

CauseNetの特徴と規模

CauseNetは ウェブ上の半構造化・非構造化データ から因果関係を抽出
1,160万件を超える因果関係 を収録、抽出精度はおよそ 83%
初の大規模・オープンドメイン因果グラフ の構築
因果関係の表現例（証拠データ省略）
- 例：disease → death
因果推論やQA、議論支援 など多様な応用可能性

CauseNetのデータセットバージョン

CauseNet-Full ：全データセット（約1.8GB、1,160万件の因果関係、1,218万件の概念）
CauseNet-Precision ：高精度サブセット（約135MB、約20万件の因果関係、8万件の概念）
CauseNet-Sample ：小規模サンプル（約54KB、264件の因果関係、524件の概念）
- 初学者や実験用 に最適

データモデルと証拠情報

CauseNetの中心は 因果概念 と 因果関係 から成る
各因果関係には 抽出元や手法などの証拠データ を付与
抽出例と証拠データの型
- ClueWeb12文、Wikipedia文、Wikipediaリスト、Wikipediaインフォボックス
各証拠には ページID、タイトル、タイムスタンプ、文やリスト情報 などを付与

抽出例

ClueWeb12文抽出例
- smoking → disability
- 証拠：ページID、参照URL、抽出文、抽出パターン等
Wikipedia文抽出例
- human_activity → climate_change
- 証拠：ページID、タイトル、改訂ID、見出し、抽出文等
Wikipediaリスト抽出例
- separation_from_parents → stress_in_early_childhood
- 証拠：ページID、タイトル、リストの見出し等
Wikipediaインフォボックス抽出例
- alcohol → cirrhosis
- 証拠：ページID、タイトル、テンプレート名、引数等

CauseNetの活用と拡張

CauseNetは Neo4j グラフデータベースへのロード用サンプルコードを提供
- 例：coronavirus → SARSの因果関係グラフ表示
因果概念スポッター により、複数語から成る因果概念を高精度で抽出
- 例：「global warming」「human activity」「lack of exercise」など
概念スポッティング用データセットも公開（Wikipediaインフォボックス、リスト、ClueWeb文）
- 各データセットは 80%訓練、10%開発、10%テスト で分割

論文・引用情報

CauseNetは CIKM 2020論文 「CauseNet: Towards a Causality Graph Extracted from the Web」の基盤
論文引用形式：
- @inproceedings{heindorf2020causenet, ...}
問い合わせ先： Stefan Heindorf (Paderborn University) 他

ライセンスと利用条件

コード： MITライセンス
データ： Creative Commons Attribution 4.0 Internationalライセンス
- 商用・非商用問わず利用可（要クレジット表記）

Hackerたちの意見

サンプルセットにはこんなのが含まれてるよ：{ "causal_relation": { "cause": { "concept": "boom" }, "effect": { "concept": "bust" } } } まるでヘッジファンドのボックスみたいだね。

└

それに、その関連性がどれだけ妥当かどうかは別として、実際に集めてるのは、何のメカニズムもなしに見える相関関係のセットなんだよね…。

見た感じ、https://tylervigen.com/spurious-correlations?page=135 を追加しちゃってもいいかも。

「地図は領域ではない」というのは、バイアスやミスがAIプロジェクト全体から切り離せないことを示してる。ジャロン・ラニアーみたいに語りたくはないけど、これはシミュレートされた知能の語彙における基本的な用語なんだよね。

これ、あんまり意味がわからないな。オントロジーとかは試されてきたけど、いつも脆すぎるって結果が出てる。フロントページの例（これがセットの中で一番良いものだと思うけど）を見てみて：人間の活動 => 気候変動。これってすごく広い概念だから、実際には役に立たないよね。病気 => 死。全然ニュアンスがないし。「病気」の定義すらないし、ミクソマトーシスがヨーロッパのウサギには致死的でも、人間や金魚にはそうじゃないって表現する方法もない。

└

その通り。場合によっては、病気が死を引き起こすこともあるし、他の場合では免疫を引き起こして「健康」をもたらし、死を遅らせることもある。

└

コラーとフリードマンは「確率的グラフィカルモデル」の中で「明瞭性テスト」について書いていて、状態変数は全てを見通せる観察者にとって明確であるべきだと言っています。「人間の活動」みたいな状態は客観的に測定できるものではないんですよね。PGMと因果モデルは同じではないけど、状態変数を考えるこの方法はすごく良いフィルターになります。

└

もっと重要なのは、死の確率や原因の一部、あるいは単純な一次元的な要素ではないってことです。たとえ「矢印」に簡略化できたとしても、そのラベルはスカラー数じゃないんです。最低限でも、それはベクトルで、LLMの埋め込みと同じです！さらに重要なのは、各因果的な矢印の端点も複雑であいまいなもので、ベクトルとして表現するのがベストです。つまり、病気は「インフルエンザ」みたいな単純なラベルじゃないんです。インフルエンザだけでも、何千もの変異株が常に変わってるんですよ！「病気」の適切な表現もベクトルで、原因となる病原体の特定のゲノムとの面白い相関があるでしょう。[1] 次に考えるべきことは、病気と感染したものとの間の「ベクトル積」を考慮することです。感受性や以前の免疫などを考慮するために... ちょっとしたステップで、トランスフォーマーが登場します。大規模言語モデルで見られるように。これがうまく機能する理由で、現実の複雑なニュアンスを高次元の確率的因果フレームワークにエンコードして、情報を処理したり、質問に答えたりできるからです... 現代のLLMの埋め込みや重みを手動でエンコードするのは（約1テラバイト！）信じられないほど無駄です。でも、それが実用的な「古典論理」モデルを作るために必要なことなんです。特に、こういったアプローチを使ったエキスパートシステムは、数十年にわたって取り組まれてきたけど、ほとんど役に立たないから市場ではほぼ完全に失敗していました。[1] すべての病気が生物学的な要因によって引き起こされるわけではない！これはまた別の深い話です。

└

オントロジー、オントロジーではなく、試みられてきました。システムは健全で完全であることはできないということはかなり理解されていますが、人々は世界の単一モデルを作ろうと突っ込んでいきました。

└

過去数年にわたって特定の分野のオントロジーを作ることは、オントロジーを書いた人たちの間で共通の理解を生むだけで、彼らが使ってほしい人たち（他の皆）との間には大きな隔たりができるだけだと完全に同意します。おそらく違うのは、LLMを通じて機械も意味や正しさについて「意見」を持つことができる点です。全てを振り返ると、もしLLMにオントロジーを定義させたらどうなるんだろうって思います...

└

デモクリトス（紀元前460年頃）は「ペルシャの王国を手に入れるよりも、一つの原因を発見したい」と言ったそうで、真の原因を見つけるのはかなり難しいことを示唆しています。

└

同意します。私たちが期待できる最強のものは因果メカニズムで、それらのほとんどはせいぜい仮説や特定の条件下でのみ適用される部分的な説明です。正直なところ、これらのオントロジーがどうして続いているのか理解できません。この分野に誰が投資していて、なぜなんでしょう？

Hacker Newsで議論の続きを見る

ハクソク