概要
CauseNetは、人間の持つ 全ての因果知識 を体系化した 大規模知識ベース。 因果知識と 因果信念の分離 を目指し、AI分野での因果推論研究を加速。 1,160万件超の因果関係 を高精度で抽出し、オープンドメインの因果グラフを構築。 多様なウェブソースからの抽出と 豊富な証拠情報 を保持。 ダウンロード・利用・拡張が可能な オープンデータ として提供。
CauseNet:全因果知識ベースの構築
- CauseNetは 全人類の因果知識 を体系化・知識ベース化するプロジェクト
- 因果知識 と単なる 因果信念 の分離を目指す設計思想
- 人工知能分野 において因果知識は重要な基盤
- 既存の知識ベースでは 因果情報の網羅性が不足 していた現状
- 検証作業の困難さ が因果知識ベースの普及を妨げてきた背景
CauseNetの特徴と規模
- CauseNetは ウェブ上の半構造化・非構造化データ から因果関係を抽出
- 1,160万件を超える因果関係 を収録、抽出精度はおよそ 83%
- 初の大規模・オープンドメイン因果グラフ の構築
- 因果関係の表現例(証拠データ省略)
- 例:disease → death
- 因果推論やQA、議論支援 など多様な応用可能性
CauseNetのデータセットバージョン
- CauseNet-Full :全データセット(約1.8GB、1,160万件の因果関係、1,218万件の概念)
- CauseNet-Precision :高精度サブセット(約135MB、約20万件の因果関係、8万件の概念)
- CauseNet-Sample :小規模サンプル(約54KB、264件の因果関係、524件の概念)
- 初学者や実験用 に最適
データモデルと証拠情報
- CauseNetの中心は 因果概念 と 因果関係 から成る
- 各因果関係には 抽出元や手法などの証拠データ を付与
- 抽出例と証拠データの型
- ClueWeb12文、Wikipedia文、Wikipediaリスト、Wikipediaインフォボックス
- 各証拠には ページID、タイトル、タイムスタンプ、文やリスト情報 などを付与
抽出例
- ClueWeb12文抽出例
- smoking → disability
- 証拠:ページID、参照URL、抽出文、抽出パターン等
- Wikipedia文抽出例
- human_activity → climate_change
- 証拠:ページID、タイトル、改訂ID、見出し、抽出文等
- Wikipediaリスト抽出例
- separation_from_parents → stress_in_early_childhood
- 証拠:ページID、タイトル、リストの見出し等
- Wikipediaインフォボックス抽出例
- alcohol → cirrhosis
- 証拠:ページID、タイトル、テンプレート名、引数等
CauseNetの活用と拡張
- CauseNetは Neo4j グラフデータベースへのロード用サンプルコードを提供
- 例:coronavirus → SARSの因果関係グラフ表示
- 因果概念スポッター により、複数語から成る因果概念を高精度で抽出
- 例:「global warming」「human activity」「lack of exercise」など
- 概念スポッティング用データセットも公開(Wikipediaインフォボックス、リスト、ClueWeb文)
- 各データセットは 80%訓練、10%開発、10%テスト で分割
論文・引用情報
- CauseNetは CIKM 2020論文 「CauseNet: Towards a Causality Graph Extracted from the Web」の基盤
- 論文引用形式:
- @inproceedings{heindorf2020causenet, ...}
- 問い合わせ先: Stefan Heindorf (Paderborn University) 他
ライセンスと利用条件
- コード: MITライセンス
- データ: Creative Commons Attribution 4.0 Internationalライセンス
- 商用・非商用問わず利用可(要クレジット表記)