世界を動かす技術を、日本語で。

リビングルームのスマートテレビはAIScraping経済のノードである

概要

  • Bright Data は世界最大級の 住宅プロキシネットワーク を運営
  • スマートTVやスマホなど 家庭内デバイス をAI学習用の出口ノード化
  • SDKを組み込んだアプリ経由で ユーザーのIP・帯域を利用
  • 同意取得やプライバシー通知の 不透明さ が指摘される
  • スマートTVが AIデータ収集の理想的なプロキシ として悪用される懸念

Bright Dataによる住宅プロキシネットワークの仕組み

  • Bright Data は「世界最大の住宅プロキシネットワーク」として 4億超の家庭用IPアドレス 経由のWebスクレイピングを顧客に提供
  • その供給源は、 SDK(ソフトウェア開発キット) を組み込んだ消費者向けアプリ
    • ユーザーの同意を得て、スマホやスマートTVをプロキシ出口ノード化
  • AI企業 はデータセンターIPがブロックされる対策として、住宅プロキシ経由で学習用データを収集
    • Cloudflare等がクラウドIPからのスクレイピングを制限
    • 住宅プロキシは 実際の家庭のネットワーク を利用するため検知されにくい

スマートTVが理想的なプロキシとなる理由

  • 常時電源接続・高帯域・WiFi固定 など、スマホよりもプロキシ向きの特性
    • バッテリー切れやネットワーク切替が発生しない
    • 24時間スタンバイ状態が多く、ユーザーの監視が緩い
  • ユーザー同意やプライバシー通知 がTVリモコン操作で分かりづらい
    • アプリ内の同意画面やプライバシーポリシーが不十分
  • 例:Rokuアプリ「Petflix」では、「時折IPを利用」と記載しつつ、 200GB/月 の帯域利用がデフォルト設定

Bright Dataのパートナー企業

  • 公開エンドポイントで パートナー企業リスト が取得可能
    • PlayWorks Digital Ltd:400以上のCTVゲームタイトル、2.5億世帯以上に配信
    • CloudTV:125以上のTVブランド・15以上のOEMに統合
    • Longvision Media HK (LongTV):香港・マレーシアで500万ユーザー
    • Viber Media S.à r.l.:Viberメッセンジャーで2.5〜8.2億ユーザー
    • その他、韓国Supercent、Moonfrog Labs(Teen Patti Gold)、Hola Networksなど
  • リスト掲載=即時稼働中 とは限らず、各アプリごとにSDK組込有無の検証が必要

Bright Data SDKの動作詳細

  • iOSフレームワーク(brdsdk.framework) としてパートナーアプリ内で稼働
  • 毎起動時に 設定情報(JSON) をBright Dataサーバーから取得
    • 機能フラグ、アイドル判定閾値、国別帯域制限、パートナーマニフェスト等
  • WebSocket 経由でAWS上のサーバーと常時接続
    • TLSのみで認証はほぼなし
    • 接続後、端末の IP・バッテリー・CPU・帯域・ネットワーク状態 等を継続送信
  • サーバーから スクレイピングジョブの指示 が届くと、端末のIPで外部サイトへのリクエストを実行
  • 全通信はシンプルなJSONプロトコルで暗号化はTLSのみ、追加の署名や認証なし
  • アイドル判定ルール は「画面ON」「通話中」でもCPU・メモリ・バッテリー条件を満たせばリレー可能
    • ユーザーが操作中でもプロキシとして利用されるリスク

プライバシー・セキュリティ上の懸念点

  • ユーザーのIPアドレス・ネットワーク帯域が第三者のWebスクレイピングに利用
  • TVやスマホの 端末状態が外部サーバーに常時送信
  • 同意取得や通知が 形骸化 しやすく、実態把握が困難
  • 法人・家庭の監視が緩いTV が特に狙われやすい
  • SDK通信のセキュリティが 商用マルウェアより脆弱 との指摘

まとめ

  • Bright Data の住宅プロキシネットワークは、AI企業の学習データ収集を支えるインフラ
  • スマートTVやスマホ が知らぬ間に第三者のデータ収集経路となるリスク
  • ユーザーの同意やプライバシー保護の不十分さ が問題視されている
  • 今後は 端末利用状況の可視化や、より厳格な通知・制御 が求められる

Hackerたちの意見

スマートデバイスをWi-Fiに接続することは絶対にないよ。接続なしで動かないなら、いらない。テレビはディスプレイとして使ってるだけ。HDMI入力があればそれで十分。

TCLのテレビでは、同意するGoogleのポリシーを読むために接続しなきゃいけないんだ。接続しないと、読まずに同意したことになる。ありがたいことに、接続がないとこれの影響はほとんどないよ。

私は工場出荷時から一度もインターネットに接続していないスマートTVを持ってるけど、これはかなり微妙な状況だよ。誰かが泊まりに来たときに、「サービスが利用できません、[メニュー]を押してトラブルシューティングしてください」ってHDMIフィードの上に数秒間表示されるトーストを見て、接続しようとするんじゃないかって恐れてる。4〜5年分のファームウェアアップデートが一度に来るなんて…半世代分の視聴データがHDMIフィードから抽出されて、まさにこの瞬間のために保存されてるなんて…広告がどこにでも。たとえすぐには起こらなくても、OSの深いところに「makeEverythingWorse」ってフラグがあって、ほんの一瞬で切り替わるのを待ってるんじゃないかと思う。ビーストが少し高いパッチ番号を嗅ぎ取ったら、今や自分の真の目的を果たして、サムスンに私のお気に入りの番組がHDMI2だって伝えることに満足してる。母が自分のTVでその崖から落ちそうになったのを止めたことがあるから、心配する価値があるってわかってる。完全に空っぽのTVホーム画面が、打ち消されたラジオ塔のアイコンで私たちを呼んでる。「Disney+やCraveTVもありますよ…[メニュー]を押して…コーヒーテーブルに息子が貼った付箋には目を向けないで」

もどかしいけど、ネットワークにテレビを接続することで得られる機能のいくつかは欲しいんだよね。特に、APIを通じて電源を入れたり、入力を選んだりする機能が。外部へのアクセスが許可されていないVLANに入れることで管理できるけど、それをしなきゃいけないのが本当に面倒なんだよね。

それでいいよ!Amazon Sidewalkみたいな技術や、安くて使いやすい4G/5Gラジオがあれば、もう誰も君の許可を求める必要はないんだ。古いデバイスを使うこともできるけど、置いていかれたくないよね?それに、周りの人たちは君が貧乏か、もしくはC.H.U.D.だと思うかもしれないよ、デジタルの束縛を受け入れないと。

設定を取得した後、SDKは持続的なWebSocketを開く: wss://proxyjs.brdtnet.com:443 このホスト名はAWSグローバルアクセラレーターのIPに解決される。スクレイパーとスクレイピングされるウェブサイトの両方がAWSでホストされているという皮肉があるね。まるでそうじゃないふりをしながら、複雑なイタチごっこをしてるみたい。

アメリカ政府が商業ビジネスを必要としているのと似てるね。彼らはそれをうまく規制できないから、そのビジネスが合法的にプライバシー侵害を提供する手段になってる。

DNSブロックリストに即追加中。

CloudflareはDDoS対策サービスをDDoSコントロールパネルに販売してるよ。

Bright DataはAWSマーケットプレイスで製品として利用可能だよ: https://aws.amazon.com/marketplace/seller-profile?id=bf9b432...

ここで見える問題の一つは、Torの出口ノードを運営することに似てるね。悪いことをするユーザーが自分の位置を隠すために使うだろうから。実際に子供のポルノを取引している犯人が、あなたのテレビをプロキシとして使ってるのに、警察があなたの家に来るなんて想像してみて。

なんか、すべてがユーザーに対して敵対的になってきてるのが本当に嫌だ。ほとんどすべてのことに専門家にならなきゃいけないし、大きなことが起きて前の仮定が覆されるかもしれないから、ニュースを追わなきゃいけない。もし何かを見逃して文句を言ったら、擁護者たちが出てきて、話を逸らしたり、反論したりするんだよね。これに関して良いニュースがあるとすれば、普通の人たちも疲れてきてるみたい。職場の友達が、今や子供たちの制限を適切に実施するために完全なWi-Fi/インターネット管理者にならざるを得ないって愚痴ってた。ちょっと愚痴ってるだけなんだけど、どうすればいいのか全然わからないんだ。

Bright Dataみたいなグループは、結構いいKYCを持ってるよ。警察の訪問の後、実際の犯人は刑務所に行くことになるだろうね。

外の世界にアクセスできないようにファイアウォールがブロックしてるから、無理だね。(でもHomeAssistantには制御させてる)

スマートテレビには広告が組み込まれてるのが多いよね。中古のソニー・ブラビアを買ったけど、イライラすることに3日で道端に置いちゃった。ずっとブートループしてて、UIの入力遅延が3秒くらいあったから。ネットには繋げなかったから、製造された10年前のソニースタジオの映画の広告を見せてくれたよ。

SDKの設定にはフラグ“use_netifs”: trueが含まれてる。このフラグは、特定の必要なインターフェース(en0(Wi-Fi)またはpdp_ip0(セルラー))を使ってNWConnectionを構築するSDKバイナリ内のコードをトリガーする。システムのデフォルトルートを使うのではなく。 > iOSでは、これにより設定されたVPNのtun0インターフェースを完全にバイパスする。ピアトンネルはユーザーが設定したVPNを越えないけど、アプリの他のHTTPSトラフィックは越える。これに対する正当な使用例は何?アプリがユーザーが設定したVPNをバイパスするのはいつ/なぜ許されるべき?

アプリがユーザーが設定したVPNをバイパスするのはいつ/なぜ許されるべき?完全トンネリングがうまくいかない場合、一時的にスプリットトンネルを使ってVPNの問題を回避することができるけど、個人的にはアプリがネットワークの境界をバイパスするべきじゃないと思う。

このAPIの正当な使用例って何? VPNを提供するアプリケーションのときとか、ローカルなネットワークで何かと通信するために作られたアプリのときだね。グローバルにアクセスできるものではなくて。

素朴な質問だけど、これを自分のデバイス(ほとんどiOS)や自宅のネットワークで検出する方法を見つけるために、何を検索すればいいかな?このSDKがアクティブなアプリをデバイスから見つけて削除したいんだ。

もっと良い方法があるかもしれないけど、これ、最初に見た感じではMacがあれば合理的に見えたよ。https://www.thequantizer.com/tutorials/wireshark-iphone-traf... しばらくこういうトレースはやってなかったけど、Wiresharkはすごく使いやすかったし、ネットワークが公開されれば、もっと情報が必要なときはオンラインにたくさんあるよね。VPNをバイパスするのは特にひどいと思ったし、全体的にそう感じる。個人的には、利用規約にどれだけのことが書かれているかに制限があれば素晴らしいと思う。もう誰もあんなに長いのを読みたくないから。

その種のプロキシが違法でないなら、個人的には違法にすべきだと思う。インターネットのルーティングやIPアドレスのリース(所有権)に関する基本的な仮定を回避していると言うのは、Bright Dataが製品の支払いにパッケージ化したものに比べたら、申し訳ないけど控えめすぎる。> あなたはBright Dataに、時々あなたのデバイスの無料リソースと_IPアドレスを使ってインターネットから公開ウェブデータをダウンロードすることを許可しています。 (強調は私の) エンドユーザーにとって誤解を招く部分は、「公開ウェブデータをダウンロードする」ってところだと思う。データが公開されてるなら、なんでBright Dataが自分でダウンロードできないの? それは、相手が彼らにダウンロードしてほしくないかららしい。この製品は、Bright Dataが「公開」データ提供者の望ましくない特性を回避するのを手伝うように作られていて、現時点ではインターネットの短い方にいる誰かが金を持っているからそうなってる(正当な理由でね)。これは本当にひどいことだけど、これが進む方向を考えると、正直驚きもしないし心配もしてない。人々は長い間、財布で投票してきたからね。ここでプロキシされているのはプライバシーを気にするハッカーじゃなくて、私たちの親や、仕事の後にエンターテイメントを求める何百万もの人々なんだ。日々、ダークインターネット理論がますます現実味を帯びてきて、正直それに賛成だよ。インターネットは封建的なネットワークに崩壊して、どんなルーティングもホップごとのキーが必要になるだろうから、実際の人々(そしてエージェントもね)が、今まさに積極的に回避されている信頼の尺度を維持できるようになる。

それは完全に合法だし、君が言ってたIPルーティングやアドレス所有権に関する法律は存在しないよ。

これらのことを止めるために、私のウェブサイトの前に置ける防御策ってある? 住宅プロキシからのトラフィックの量が本当に厳しいんだ。特に住宅プロキシに対する防御が欲しい。

これらのプロキシが使っているボットは、いくつかの方法で検出可能だよ。ボット自体はプロキシ上で動いてないからね…プロキシからC&Cノードへの遅延が見える。個々のボットはあまり計算リソースにアクセスできないし、機能セットに制限があることもある(例えば、独自のビデオコーデックとか)。他にもいくつかの技術があるけど、これは猫とネズミのゲームだね。ボットの所有者は大抵、君よりもやる気があるよ。

ウェブサイトの前にキャプチャやプルーフ・オブ・ワークのチャレンジを追加するのがいいよ。それがほぼ唯一の選択肢だね。

サーバーをめちゃくちゃ効率的にして、少しの追加リクエストでダウンしないようにしよう。もしくは、初めて見たIPで、リファラーがない深いリンクのページなら、終わらないチャンク化されたgzipデータストリームを送るのもありだね。

ユーザーがCSSで隠せるリンクをページに作ったらどうかな。例えば、白い文字を白い背景に。リンクをクロールするボットに対して、計算を無駄にさせたり、めちゃくちゃなことをさせたりするのがいいかも。いっそのこと、ZIPボムでもやっちゃえ。

住宅プロキシトラフィックを検出するためのソリューションがあるよ: https://layer3intel.com/tripwire ここで、自分のネットワークが住宅プロキシの出口ノードを運営しているかも確認できるよ: https://layer3intel.com/is-my-network-a-residential-proxy

確認したけど、ネットワーク全体にAdGuard入れてる。テレビではリクエストの80%がブロックされてるし、ネットワーク全体では約50%だよ。すごいね。

提案された対策は弱いね: - DNSブロックとSNIフィルタリング: BrightDataがこの問題に注目が集まると、エンドポイントを回転させると思う。すべてのアプリがSDKに追いつくまで時間がかかるけど、もし賢いSDKなら、現在のエンドポイントが長期間使えなくなった後に接続を試みるバックアップのC&C接続があるかもしれない。 - TLSフィンガープリンティング: SDKがピン留めしない限り、これが一番安価に回転させられる。 - MDMソリューション: プライベートユーザーにはほぼ手が届かないし、SDK名がどれだけ安定しているかも不明。もっと良いアプローチがあるとは言わないけど、こういう行動はAppleやGoogle側で明示的に禁止されて、パブリッシャーアカウントが即座に停止されるべきだと思う。