概要
- GM-SEUS は全米の大規模太陽光発電所の 15,000超アレイ・290万枚パネル データセット
- NOAA、NASA、USGS 出身研究者らによる詳細な構築
- DuckDB、GDAL、QGIS などOSS活用によるデータ解析・可視化
- Parquet形式 で効率的なデータ変換・圧縮を実施
- 本記事は 配列データセットの構造と解析方法 に焦点
GM-SEUS: 米国地上設置型太陽光発電データセットの概要
- Ground-Mounted Solar Energy in the United States (GM-SEUS) は、米国本土48州+DCの大規模太陽光発電所データセット
- 15,000以上の配列(arrays)、2,900,000枚以上のパネル(panels) を収録
- データ構築は NOAA、NASA、USGS 卒業生を含む研究チームによる協力体制
- 配列データとパネルデータの 2種のデータセット に分割
- データセットの地理分布は ヒートマップ で可視化可能
解析環境とツール構成
- AMD Ryzen 9 9950X(16コア/32スレッド、5.7GHz) 搭載ワークステーション利用
- 96GB DDR5 RAM、Crucial T700 4TB NVMe M.2 SSD (最大12,400MB/s)
- Corsair 1,200W電源、ASRock X870E Nova 90マザーボード
- Ubuntu 24 LTS(WSL2経由でWindows 11 Pro上) で運用
- Nvidia GTX 1080 GPU はWindowsでのドライバ互換性と ArcGIS Pro のため
- GDAL 3.9.3、DuckDB v1.4.1 (H3, JSON, Lindel, Parquet, Spatial拡張)
- QGIS 3.44 で主に地図レンダリング、 Tile+プラグイン でEsriベースマップ追加
データ準備・加工手順
- US CENSUS州コードデータ(CSV) 取得
- GM-SEUS本体データ(ZIP) をダウンロード・展開
- 投影法(proj4) を抽出し、 EPSG:4326 へ再投影
- DuckDB で
- 幾何情報の2D化、座標反転・変換
- NULL値変換・不要次元除去
- バウンディングボックス・州名付与
- ヒルベルト符号化順 で空間的にソート
- Parquet形式・ZSTD圧縮 で保存(配列: 108MB→37MB、パネル: 1.1GB→334MB)
配列データセット(arrays.parquet)の構造
- 15,017行 の配列レコード
- 例レコードには 州名、容量、設置年、座標、傾斜角、設置方式など多数属性
- 各カラムの データ型、NULL率、一意数、最小・最大値 をDuckDBで集計可能
- 主なカラム例
- COUNTYFP, STATEFP, arrayID, capMW, instYr, latitude, longitude, modType, mount, state_name, tilt, totArea など
配列データの可視化・集計
- H3グリッド(レベル4) でヒートマップ作成
- 各配列のバウンディングボックス座標から H3セルID 算出
- 配列数をセル単位で集計し GPKG形式 でエクスポート
- ArcGIS Pro と QGIS で地図描画
- Parquet対応はQGISが優秀、ArcGIS ProはGPKGを推奨
データソース別・設置年別の集計
- Sourceカラム でデータ出典(CCVPV, OSM, USPVDBなど)を管理
- 設置年(instYr)ごとにソース別件数 をピボット集計
- 2000年代後半から急増、 2010年以降に多くの新規アレイ
- ソースごとのカバー範囲・時系列傾向を把握可能
GM-SEUS配列データセット活用のポイント
- 全米規模の太陽光発電施設の空間分布・属性分析 が容易
- OSSツール(DuckDB, GDAL, QGIS) で高速かつ柔軟な解析体制
- ZSTD圧縮Parquet によるリモート・大規模データ処理の効率化
- 設置年・容量・設置方式・地理的傾向 など多面的な分析が可能
- 再エネ政策立案・市場分析・環境研究 など多用途に活用可能