世界を動かす技術を、日本語で。

3.4Mの太陽光パネル

概要

  • GM-SEUSデータセットv2 のレビューと新機能の紹介
  • ハードウェア環境 や使用ツール・アプリケーションの明示
  • データ取得・変換手順 の詳細な解説
  • 各データセットの レコード数やカラム統計 の提示
  • Parquet変換方法 やNULL値の扱いに関する具体例

GM-SEUS v2 データセットレビュー

  • GM-SEUS(Ground-Mounted Solar Energy in the United States)データセット のv2が公開、パネル数が 2.9M→3.4M に増加
  • 新たにRooftop Arrayデータセット が追加
  • 各データセットの リフレッシュ および拡充

作業環境

  • AMD Ryzen 9 9950X (16コア32スレッド、5.7GHz動作)のワークステーションを使用
  • DDR5 96GB RAM (4,800MT/s)、 Crucial T700 4TB NVMe SSD (12,400MB/s読み込み)搭載
  • Cooler Master HAF 700ケースCorsair 1,200W電源ASRock X870E Nova 90マザーボード
  • Ubuntu 24 LTS(Windows 11 Pro上のWSL2) で運用
  • Nvidia GTX 1080 使用理由:Windowsの方がドライバサポートが良好、 ArcGIS Pro はWindows専用

必要なツールのインストール

  • GDAL 3.9.3 のインストール手順
    • sudo add-apt-repository ppa:ubuntugis/ubuntugis-unstable
    • sudo apt update
    • sudo apt install gdal-bin
  • DuckDB v1.5.1 のインストールと拡張機能(H3, JSON, Lindel, Parquet, Spatial)の導入
    • 拡張機能自動ロード設定(~/.duckdbrcに記述)

マッピングツール

  • QGIS v4.0.1 を使用
    • HCMGISプラグイン でEsriベースマップ追加
    • 月間1,500万回以上の起動実績

データセットのダウンロードと準備

  • GMSEUS v2データ(3.4GB ZIP) のダウンロード・GeoPackage(GPKG)抽出
    • wget -O GMSEUS_v2.zip 'https://zenodo.org/records/19581821/files/GMSEUS.zip?download=1'
    • unzip -j GMSEUS_v2.zip "*.gpkg"
  • GPKGファイルの投影法
    • Albers Equal Area(AEA)を使用
    • gdalsrsinfo -o proj4 GMSEUS_RooftopArrays_2025_v2_0.gpkg

Rooftop ArrayデータセットのParquet変換

  • DuckDB v1.4.4 利用(v1.5.1では例外発生のため)
  • Parquet形式への変換SQL例を提示
  • レコード数:5,822件
  • カラムごとのNULL値率・ユニーク値数・最小/最大値を集計

パネルデータセットのParquet変換

  • パネルデータ(GMSEUS_Panels_Final_2025_v2_0.gpkg)をParquet形式へ変換
  • レコード数:3,429,157件
  • 各カラムのNULL率・ユニーク値数・最小/最大値を集計

アレイデータセットのParquet変換

  • アレイデータ(GMSEUS_Arrays_Final_2025_v2_0.gpkg)のParquet変換
  • レコード数:18,980件
  • カラムごとの詳細統計情報を提供

データ分析のポイント

  • NULL値や異常値(-9999など)の適切な変換
  • 空間情報の投影変換とWKB化 による可視化・分析の効率化
  • HILBERTエンコード による空間インデックスの利用
  • Parquet形式+高圧縮(ZSTD, 圧縮レベル22) でストレージ効率向上

まとめ

  • GM-SEUS v2データセット は米国の太陽光発電所・パネル・屋根設置型アレイの最新・網羅的な空間データベース
  • GDAL・DuckDB・QGIS などのツールを組み合わせることで、大規模空間データの取得・前処理・変換・分析が容易
  • NULL値処理や空間変換 のノウハウがデータ品質を高める鍵

Hackerたちの意見

どんな情報がパネルごとにあるのか、最初に説明してくれるといいな。それに、「NOAA、NASA、USGSの卒業生を含む研究チーム」が実際にデータをどうやって集めたのか、詳しく知りたい。

私ももっと詳しく知りたいな。

こちらで(オープンアクセスの)論文が読めるよ:https://www.nature.com/articles/s41597-025-05862-4 要約にはこう書いてある:「新しく編纂された太陽光パネルの配列とパネル列を使って、設置年、方位、マウント技術、パネル列の面積と寸法、列間の間隔、地面の被覆率、傾斜、設置容量など、既存のデータセットに付加価値属性を調和させて独立に推定します。」

方位や傾斜角のヒストグラムが見れたら面白そうだね。オランダでは、南の方を15〜30度くらいでピークにして、東西の組み合わせでちょっと低いピークがあるんじゃないかな。このデータセットではどうなるのか気になる。

おおよそ緯度と相関があるはずだよ(例外は傾斜のある屋根のパネルで、屋根の傾斜に合わせることになるけど)。

そのアイデア、めっちゃ好き!今日は特に手の込んだことをする時間がないけど、投稿の一番下に2つのビジュアライゼーションを追加したよ。

ここに役立つチャートがあるよ。君の大体の緯度に合ってるみたいだね: https://ratedpower.com/blog/solar-panel-orientation/

私の母国オランダでは、南向きで約15-30度のピークが見られると思う。東西の組み合わせでも低いピークがあるね。人々は異なる配置の利点と欠点を面白く探求しているよ。例えば、 > 屋根の面積が限られている場合、予算内で利用可能なエリアに最も効率的に太陽光を設置できるレイアウトは何かという質問になる。そういうシナリオでは、東西(E-W)レイアウトが南向きのレイアウトを上回ることがあるんだ。南向きのレイアウトは「より良い位置」にあるかもしれないけど、E-Wだと同じエリアにもっと多くのパネルを設置できるからね。* https://ases.org/east-west-vs-south-facing-solar-when-more-p... 基本的には、場所や屋根の条件によって「質と量」のバランスを考えてるんだ。

これを考えると、中国は毎日その3倍くらいを設置してるよね。https://reneweconomy.com.au/just-staggering-china-installs-1...

アメリカの政策がどれだけ後れを取っているかを考えると、これが未来の大きな要因になるだろうね。エネルギーコストがほとんどないエネルギー重視の使用例が、西洋の産業を追い越すことになるよ。

これは包括的なデータセットじゃないよ。アメリカは2025年に43GW_peakを設置したけど、それは約8000万枚の新しいパネルに相当する。とはいえ、中国に比べると新しい容量は桁違いに少ないけど、二桁の差ではないよ。

かなりクールだけど、ヒートマップには「これはただの人口密度マップだな」っていう感じがちょっとあるね。https://xkcd.com/1138/ 一人当たりに修正できたら面白いけど、人口密度のために任意の六角形を調整するのは本当に大変そうだな。

Hacker Newsで議論の続きを見る