概要
- GM-SEUSデータセットv2 のレビューと新機能の紹介
- ハードウェア環境 や使用ツール・アプリケーションの明示
- データ取得・変換手順 の詳細な解説
- 各データセットの レコード数やカラム統計 の提示
- Parquet変換方法 やNULL値の扱いに関する具体例
GM-SEUS v2 データセットレビュー
- GM-SEUS(Ground-Mounted Solar Energy in the United States)データセット のv2が公開、パネル数が 2.9M→3.4M に増加
- 新たにRooftop Arrayデータセット が追加
- 各データセットの リフレッシュ および拡充
作業環境
- AMD Ryzen 9 9950X (16コア32スレッド、5.7GHz動作)のワークステーションを使用
- DDR5 96GB RAM (4,800MT/s)、 Crucial T700 4TB NVMe SSD (12,400MB/s読み込み)搭載
- Cooler Master HAF 700ケース、 Corsair 1,200W電源、 ASRock X870E Nova 90マザーボード
- Ubuntu 24 LTS(Windows 11 Pro上のWSL2) で運用
- Nvidia GTX 1080 使用理由:Windowsの方がドライバサポートが良好、 ArcGIS Pro はWindows専用
必要なツールのインストール
- GDAL 3.9.3 のインストール手順
sudo add-apt-repository ppa:ubuntugis/ubuntugis-unstablesudo apt updatesudo apt install gdal-bin
- DuckDB v1.5.1 のインストールと拡張機能(H3, JSON, Lindel, Parquet, Spatial)の導入
- 拡張機能自動ロード設定(
~/.duckdbrcに記述)
- 拡張機能自動ロード設定(
マッピングツール
- QGIS v4.0.1 を使用
- HCMGISプラグイン でEsriベースマップ追加
- 月間1,500万回以上の起動実績
データセットのダウンロードと準備
- GMSEUS v2データ(3.4GB ZIP) のダウンロード・GeoPackage(GPKG)抽出
wget -O GMSEUS_v2.zip 'https://zenodo.org/records/19581821/files/GMSEUS.zip?download=1'unzip -j GMSEUS_v2.zip "*.gpkg"
- GPKGファイルの投影法
- Albers Equal Area(AEA)を使用
gdalsrsinfo -o proj4 GMSEUS_RooftopArrays_2025_v2_0.gpkg
Rooftop ArrayデータセットのParquet変換
- DuckDB v1.4.4 利用(v1.5.1では例外発生のため)
- Parquet形式への変換SQL例を提示
- レコード数:5,822件
- カラムごとのNULL値率・ユニーク値数・最小/最大値を集計
パネルデータセットのParquet変換
- パネルデータ(
GMSEUS_Panels_Final_2025_v2_0.gpkg)をParquet形式へ変換 - レコード数:3,429,157件
- 各カラムのNULL率・ユニーク値数・最小/最大値を集計
アレイデータセットのParquet変換
- アレイデータ(
GMSEUS_Arrays_Final_2025_v2_0.gpkg)のParquet変換 - レコード数:18,980件
- カラムごとの詳細統計情報を提供
データ分析のポイント
- NULL値や異常値(-9999など)の適切な変換
- 空間情報の投影変換とWKB化 による可視化・分析の効率化
- HILBERTエンコード による空間インデックスの利用
- Parquet形式+高圧縮(ZSTD, 圧縮レベル22) でストレージ効率向上
まとめ
- GM-SEUS v2データセット は米国の太陽光発電所・パネル・屋根設置型アレイの最新・網羅的な空間データベース
- GDAL・DuckDB・QGIS などのツールを組み合わせることで、大規模空間データの取得・前処理・変換・分析が容易
- NULL値処理や空間変換 のノウハウがデータ品質を高める鍵