世界を動かす技術を、日本語で。

ニューヨーク市内のすべてのテキストを検索する

概要

  • The Pudding の2025年7月公開記事の要点まとめ
  • Google Street View の歴史と進化を解説
  • 技術的背景 や社会的影響に言及
  • 未来展望 や今後の課題を考察
  • 主要なエピソードや事例の紹介

Google Street Viewの進化と社会的影響

  • Google Street View は2007年にサービス開始
  • 世界各地の道路や都市風景を 360度写真 で閲覧可能
  • AI技術 や自動画像処理の進歩による高精度化
  • プライバシー保護のため 顔や車のナンバー を自動でぼかす技術
  • 都市計画・観光・不動産 など多分野での活用
  • 一部地域での プライバシー懸念 やサービス停止事例
  • 市民参加型 によるデータ補完や新機能の実装
  • 過去のストリートビュー を閲覧できるタイムマシン機能

技術的背景と課題

  • 専用車両やカメラリグ によるデータ収集
  • マシンラーニング で画像認識・自動編集の効率化
  • クラウドインフラ で膨大な画像データを管理
  • データ更新頻度 やカバレッジの地域格差
  • プライバシー保護オープンデータ のバランス

Street Viewの未来展望

  • AR(拡張現実)VR(仮想現実) との連携強化
  • リアルタイム更新 による最新情報提供
  • ユーザー生成コンテンツ のさらなる拡充
  • 環境モニタリング都市解析 への応用
  • 倫理的配慮法規制対応 の継続的強化

代表的なエピソード・事例

  • ストリートアート や歴史的建造物の記録
  • 災害被災地 の現状把握や復興支援
  • 世界遺産 や観光地のバーチャルツアー
  • 教育現場 での地理・歴史学習ツールとしての活用
  • 一部国・地域での 規制や論争 の発生事例

まとめ

  • Google Street View は都市や社会の記録媒体として進化
  • 技術革新とともに 社会的責任 や課題も増大
  • 今後も 多様な分野 での利用拡大が期待
  • プライバシー保護倫理的配慮 の重要性
  • 市民・企業・行政の 協働によるサービス発展

Hackerたちの意見

このサイトについての書き込みも面白いよね。https://pudding.cool/2025/07/street-view/

トップテキストに追加したよ。ありがとう!

関連情報。他にも? NYCのすべてのテキスト - https://news.ycombinator.com/item?id=42367029 - 2024年12月(コメント4件) ブルックリンのすべてのテキスト - https://news.ycombinator.com/item?id=41344245 - 2024年8月(コメント50件)

データを準備した人のGitHub。NYのためにどれくらいの計算が必要だったのか気になるな。自分の地域でもやりたいけど、予算的に無理そう。https://github.com/yz3440 (下のコメント者たちが言ってる通り、心配すべきは計算じゃなくてMaps APIだね。無料プランを使ってたら、著者がすべてのタイルをダウンロードするのに何年もかかるだろうな。あの予算があればなぁ!)

OCRの計算は安いと思うよ。パワフルなデスクトップPCを用意して、夜通し動かせばいいし、1週間かかっても大丈夫。プロジェクトが潰れるのはGoogle Maps APIのコストだね。免除してもらえないと、アートとしては厳しいよ。https://mapsplatform.google.com/pricing/ ニューヨークや自分の地域にどれだけのパノラマがあるかは分からないけど、無料プランを超えると数千ドルはかかるよ。

800万枚の画像って書いてあるね。1週間で13.2枚/秒だ。データについてもっと気になるな。GoogleのAPIを使ったのか、それともGoogleと協力してデータを使ったのかな?

リンクされた記事には、800万のパノラマを取り込んだと書いてあるね。動的ビューアをスクレイピングしてるとしても、ストリートビューAPIの料金だけで3万ドルだよ(静的画像APIは解像度が低いから、少なくとも倍はかかるだろうね)。OCRは急いでなければ比較的安いと思う。消費者向けのGPUでPaddlePaddleサーバーを動かせば、1秒あたり約4MPの処理ができるよ。数千ドルのハードウェアに投資すれば、パノラマの解像度やモデルのサイズによっては、3〜6ヶ月の処理ができるかも。

これでジョン・ウィルソンの仕事がかなり楽になるかもね。 (https://en.wikipedia.org/wiki/How_To_with_John_Wilson)

これはめっちゃクールなプロジェクトだね。でも、もし画像のためにCLIPとか他の埋め込みを生成してたら、もっと10倍クールだったと思う。テキスト検索だけじゃなくて、「人が戦ってる」とか「猫と犬」とか「赤いテスラ」とか「ピエロ」とか「子供が犬と遊んでる」とか、セマンティックベクター検索もできたら最高だよね。

ストリートビューのデータって、地理空間インテリジェンスに意外と使われてない気がする。今の世代のマルチモーダルLLMを使えば、「壊れた窓」とか「前庭にフェンスがある家」とか「二重駐車してる車」とか「色あせたレーンマーカー」とか、他のソースからはなかなか得られない情報を簡単にクエリしてプロットできるよね。適度なサイズのエリアなら、最大のボトルネックは実際にはMaps APIのコストとLLMの推論のバランスだと思う。理想的には、こういう分析をスムーズに行えるGIS製品があればいいんだけど。

NY Cerebroを思い出すな。ニューヨーク市の数百の公共ストリートカメラを使ったセマンティック検索だよね。https://nycerebro.vercel.app/ (例えば「足場」で検索してみて)

ついに、この人のOCRフレンドリーな長期戦略が実を結んだね!https://www.alltext.nyc/search?q=BNE

BNEって何?

「おなら」の検索結果は、このツールの限界を示してるね。見た限りでは、実際に「おなら」って言ってるエントリーはなかったけど、そういう風にリストされてたのが面白い。「おならなう」とか(世界中のハート)、ペニー・ファーティング(ペニー・ファーシング)とか。

自分の探索結果は「従う」、「怪我した?」、「トランプくたばれ」、「オバマくたばれ」だよ。