ハクソク

世界を動かす技術を、日本語で。

メルコールの4万のAI契約者から盗まれた4TBの音声サンプル

2026年4月27日原文(app.oravys.com)

概要

2026年4月、Lapsus$によるMercorの大規模情報漏洩で 40,000人分の音声サンプルと身分証明書 が流出。この漏洩は 音声バイオメトリクスと本人確認書類 がセットで盗まれた点で過去と異なる深刻さ。攻撃者は 高精度な音声クローン と本人認証を悪用し、多様な詐欺や不正利用が可能に。被害者は 自分の音声が悪用されていないか を慎重に確認する必要。 ORAVYSは 無料で音声の不正利用チェック を提供。

Mercor漏洩事件の全体像

2026年4月4日、Lapsus$が Mercorの4TB分のデータ を公開
漏洩データには 40,000人のAI業務請負者の音声サンプルとID書類 が含まれる
請負者は AIトレーニング用音声データ収集 のために参加
5件の集団訴訟 が10日以内に提起
- 音声データが「訓練用」とされていたが、実際は 恒久的なバイオメトリクス情報 として扱われていた点が問題視

この漏洩が従来と異なる理由

過去の漏洩は 音声と身分証明書が別々 で流出するケースが大半
Mercorでは 音声サンプル・ID・セルフィーが同一データベースで紐付け
高品質な音声クローン には15秒のクリア音声で十分（Wall Street Journal 2026年2月報道）
Mercorの平均音声サンプルは 2～5分のスタジオ品質
音声クローン＋本人確認書類 ＝なりすまし詐欺に最適な材料

攻撃者が可能となる不正利用手口

銀行の音声認証突破
- US/UK銀行の2要素認証の一部を 音声認証が担う
- クローン音声で音声ゲートを突破可能
雇用主へのビッシング詐欺
- HRや財務部門に成りすまし、 給与振込先変更やワークステーションのロック解除 を依頼
Deepfakeビデオ会議詐欺（Arup事件テンプレート）
- 2024年、Arupで 2500万ドル送金詐欺 が発生
- Mercorの漏洩データは 公開映像より遥かに高品質
保険金詐欺
- Pindropによると 2025年に音声クローン詐欺が475%増加
- 電話対応が中心の自動車・生命・障害保険が標的
高齢者への緊急なりすまし詐欺
- FBI報告で 2026年の高齢者被害額23億ドル
- クローン音声で「家族のトラブル」を装う手口が急増

自分の音声が悪用されていないか確認する方法

公開音声フットプリントの自己監査
- YouTubeやPodcast、過去のZoom録画など 公開音声を検索・削除
家族や金融担当との合言葉設定
- 録音やチャット履歴にないオリジナルフレーズ を選定
- 金銭要求の電話では必ず合言葉を確認
音声認証サービスの再登録・削除
- Google Voice Match、Amazon Alexa Voice ID、Apple personal voice等を 削除・再登録
- 可能なら 異なる環境で新たに録音
銀行に音声認証の無効化を依頼
- 書面で 多要素認証（アプリトークンやハードウェアキー＋知識要素） を要求
不審な音声ファイルはフォレンジック検査
- 金銭・アクセス・緊急を求める音声は ディープフェイク検出ツールで検査
- ORAVYSが 3件まで無料検査 を提供

フォレンジック専門家のチェックリスト

コーデック不一致
- 電話音声なのに スペクトル特性が一致しない
呼吸パターンの不自然さ
- 自然な吸気タイミングが崩れる、または不規則
マイクロジッターの欠如
- 人間の声帯由来の 微細な揺らぎが不自然に少ない
フォルマント遷移の異常
- 母音間の物理的遷移 が不可能なショートカット
部屋音響の一貫性欠如
- リバーブが途中で変化、または全体的に不自然
プロソディ（抑揚）の平坦化
- ピッチやエネルギーの変化幅が狭い
話速の均一性
- 人間は内容で速度が変わる が、生成音声は一定

ORAVYSのフォレンジック検査体制

3,000以上のフォレンジックエンジン が並列稼働
- 信号・プロソディ・発音・コーデック・出自 を自動解析
AudioSealウォーターマーク検出
- 主要商用音声モデルで生成された場合、 ウォーターマーク有無を判定
ASVspoofベンチマーク対応のアンチスプーフィング
- 合成音声の確率スコア を算出
RGPD準拠のバイオメトリック処理
- 明示的同意なしで商用モデル学習に利用せず、定期的にデータ削除

Mercor被害者向け無料検査の案内

Mercor請負者で音声流出の疑いがある場合、最初の3件は無料で分析
ウォーターマーク検出・アンチスプーフィングスコア・アーティファクトチェック を網羅したレポートを提供
クレジットカード不要・件数制限なし

参考資料・ソース

Lapsus$ leak site index（2026年4月）
Wall Street Journal voice cloning report（2026年2月）
Pindrop Voice Intelligence Report 2025
FBI IC3 Elder Fraud Report 2026
Krebs on Security archives
訴訟情報は公開記録
ORAVYSは 漏洩データセットのホスティング・再配布・入力受付を一切行わない

Hackerたちの意見

ここに作者がいます。今月初めにLapsus$が漏洩サイトにMercorのアーカイブを投稿したのを見て書きました。気になったのは、音声サンプルとID書類のスキャンが組み合わさっていることです。大体の漏洩はどちらか一方だけなんですが、これはディープフェイク対応のキットを提供しています。攻撃者がこのコンボで実際に何ができるか（銀行の音声認証バイパス、Arupスタイルのビデオ通話、保険詐欺）を実用的にまとめようとしました。ダンプに含まれていた契約者向けの5ステップチェックリストも作成しました。フォレンジック検出の側面についても話せますよ。AudioSealの透かし、AASISTのアンチスプーフィング、音声バイオメトリクスが大規模に漏洩した場合の検出環境の変化について。

└

面白いね、今日は深い話ができた。;) Mercerはこの事件についてあまり公の声明を出していないね。ソーシャルメディアの投稿は必ずしも公のものではないけど、CAに提出されたこの漏洩通知のサンプルを見つけたよ - https://oag.ca.gov/ecrime/databreach/reports/sb24-621099 。私たちの立法者がデータプライバシーを真剣に受け止めるかどうか、見てみよう。

盗まれたり漏洩したりできないデータは、存在しないデータだけです。ユーザーと企業にとっての厳しい教訓ですね。ドイツ人（もちろん）にはこれを表す言葉があります。「Datensparsamkeit」。データを節約すること。

└

LLMが登場する前の時代が懐かしいな。無駄なデータを持つことが単なる負債だって主張できたのに。今はみんな「AIのためにもっとデータを！」って考えてるだけだよね。

└

公開されているデータは盗まれたり漏れたりすることもないからね。MozillaのCommon Voiceデータセットを盗むことはできないよ。

└

データは物理的なものじゃないから、盗まれることはないんだ。データはコピーできるし、消去もできる。時には両方が同時に起こることもある。データが失われるのは、最後のコピーが消去されたときだね。

└

ドイツ人（もちろんね）その理由があなたが示唆しているものかはわからないけど、70年代にはドイツでプライバシーやデータ保存について大きな議論があったんだ。彼らは「データの影（Datenschatten）」について話していた。おそらくこの言葉はその伝統から来ていると思う。言葉が存在する理由は、第二次世界大戦に対する反省（Verwaltigung）からだろうね。

└

盗まれたり漏れたりできないデータは、存在しないデータだけだ。ユーザーと企業の両方にとって厳しい教訓だね。でも、どの企業もこの教訓を学んでない。企業の脅威モデルには「自社のユーザー」も含まれていて、その脅威に関する情報をできるだけ多く保持しようとするのが彼らのやり方だ。

└

勝つための唯一の方法は、プレイしないことだね。

└

被害者を責めてる感じがする？君の声（DNAみたいに）は、隠しにくい環境データみたいなもんだし。

Mercorが4万人の契約者を騙して、そのデータのセキュリティも疎かにしたのは本当にひどいことだね。こういうことにはもっと厳しい罰が必要だと思う。

└

今起こってるのは、こういう会社を知らなかった無知なCTOたちが、その名前を知るようになったってこと。だから、この混乱の結果、Mercorにとってはビジネスが増えるかもね。Crowdstrikeのことを見ればわかるでしょ…。

Hacker Newsで議論の続きを見る