世界を動かす技術を、日本語で。

「過労で低賃金」の人々がGoogleのAIを訓練する

概要

  • 2024年春、Rachael SawyerはGoogleのAI製品の アウトプット評価 を担当することに
  • 仕事内容はAI生成コンテンツの 評価・モデレーション であり、想定外の過酷さ
  • 多くのAI評価者が 精神的負担 やサポート不足を訴える現状
  • 評価者は 契約社員 として低賃金かつ不安定な立場で働く
  • AI開発の裏にある「 見えない人間労働」の現実

GoogleのAI評価者:見えない労働力の実態

  • Rachael Sawyerは Texas出身のテクニカルライター、2024年春に「Writing Analyst」として採用
  • 実際の業務は AI生成コンテンツの評価とモデレーション、特にGoogle Geminiの出力が対象
  • 初期は 議事録やチャットの要約確認、時にはAI作成の短編映像のレビューも
  • 徐々に 暴力的・性的な不適切コンテンツの専属モデレーション 業務へ移行
  • 採用時に 業務内容の説明や同意書なし、精神的負担増大
  • Sawyerは 毎日多数のタスクを短時間で処理 するプレッシャーから不安・パニック発作を経験
  • 精神的サポートや適切なケアが 雇用主から提供されていない 現状

GoogleのAI評価業務の構造

  • Googleは Hitachi傘下のGlobalLogic などを通じて数千人規模のAI評価者を契約
  • 主な業務は GeminiやAI Overviewsの出力評価・モデレーション
  • AccentureやAppen など他の企業もAI評価サービスを提供
  • 評価者は 医療・建築・天文学など多分野の出力を校正・修正、誤りや有害な回答の是正
  • AIモデルの精度向上には 人間評価者の知見が不可欠
  • データラベリング担当者より高賃金 だが、エンジニアよりはるかに低収入

評価者の待遇と課題

  • GlobalLogicのAI評価者は 一般評価者で時給16ドル、上級評価者で21ドルから
  • 専門知識を有する評価者も多く在籍、元教師や作家、PhD保持者も
  • 締め切りの短縮・作業量の増加 により、品質や安全性への懸念が高まる
  • 孤立した環境、急変するガイドライン、情報不足といった課題
  • 複数評価者による合議制 だが、社会的圧力や主導権争いで結果が歪むことも

AIの安全性とモデレーションの限界

  • 2024年5月、GoogleのAI Overviewsが 誤情報(例:ピザに接着剤、石を食べる等) を出し話題に
  • 社内では 品質重視の方針転換 も短期間で終了
  • 十分なトレーニングや専門知識のないまま ヘルスケアや金融など重要分野の評価を担当
  • 2023年12月以降、 専門外の質問もスキップ不可、一部だけ評価し「専門知識なし」と記載する指示
  • 倫理的責任や精神的負担 が評価者に集中

AI開発の裏にある人間労働

  • AIモデルの進化には 膨大な人間の評価・修正作業 が不可欠
  • 「AIは魔法ではなく、人間労働のピラミッド構造」 との指摘
  • 評価者は 不可視かつ消耗品扱い、正当な評価やサポートが不足
  • Googleは「 品質評価は一つの指標に過ぎず、直接モデルに影響しない」と説明

まとめ:AIの進化と人間評価者の現実

  • AIの進化の裏には 多くの人間による見えない労働 が存在
  • 低賃金・高ストレス・専門外業務 に苦しむ評価者たち
  • AIの安全性と品質管理の限界、倫理的課題の浮き彫り
  • 今後のAI開発において 評価者の待遇改善や精神的ケア の重要性が増す

Hackerたちの意見

タイトルは偏っていて、Googleが人を虐待しているように責めているし、GoogleのAIが賢くないことを暗示してるけど、OPは読んでみる価値があるよ。人間のフィードバックをAIモデルに提供するための労力やコストについての感覚を与えてくれるからね。RLHFのHF部分だね。人間にとって受け入れられる行動をするように、もっと人間の期待や価値観、好みに沿った形にするために必要なんだ。

AIモデルが人間の価値観や好みにもっと沿うようにするために。で、その普遍的な人間の価値観や好みって何?それともシリコンバレーの経営者たちの価値観のことを言ってるの?

ソーヤーは、Googleのために日本の大手企業ヒタチのGlobalLogicを通じて契約された数千人のAIワーカーの一人だよ。GoogleのAI製品の出力を評価したりモデレートしたりしてる… 見方次第だね。Googleみたいなブランドは、サプライチェーンの一段階下をしっかり確認すべきだと思う。

AIモデルが人間の価値観や好みにもっと沿うようにするために。AIモデルがGoogleの価値観や好みにもっと沿うようにするために。これで合ってるよね。

RLHF(その進化版のRLAIFも含めて)は、実際には「価値観や好み」を設定する以上のことに使われてる。AIモデルが単に与えられたテキストを続けるだけじゃなくて、認識可能な行動をするためのものなんだ。「ChatGPT」の「チャット」部分が機能するための仕組みだよ。

「人間の価値観」って何?誰の好みなの?

それって主にファインチューニングの段階じゃない?RLHFはその上に乗っかる感じ?

タイトルはちょっと誤解を招く感じだね。この記事からの引用だけど(GlobalLogicはGoogleと契約している会社): 「GlobalLogicのAI評価者は、アフリカや南アメリカのデータラベリング担当者よりも高い給料をもらっていて、一般的な評価者は時給16ドル、スーパーレイターは時給21ドルから始まると、働いている人たちが言ってる。一部の人はアメリカの雇用市場が悪化する中で仕事があることに感謝しているけど、他の人はGoogleのAI製品を良くしようとすることが個人的なコストを伴っていると言っている。」

「Googleは声明でこう言った:『質の高い評価者は私たちのサプライヤーによって雇われていて、私たちの製品に対する外部のフィードバックを提供するために一時的に配置されています。彼らの評価は、私たちのシステムがどれだけうまく機能しているかを測るための多くの集約データポイントの一つですが、私たちのアルゴリズムやモデルに直接影響を与えるものではありません。』GlobalLogicはこの件についてコメントを控えた。」(強調は私のもの)これがどうして単なる嘘じゃないの?これが真実であるためには、ラベル付けされたトレーニングデータを捨てなきゃいけないよ。

彼らはおそらく、RLHFを行うには十分な規模でやっていないけど、プロジェクトや製品に取り組んでいる人たちにはまだ役立つフィードバックだよ。

彼らはRLHFを実装するためじゃなくて、品質指標を計算するためにやってるんだよ。これはトレーニングデータじゃない。

キーワードは「直接的に」。間接的にそうしてるから、真実だけど誤解を招く表現だね。

これが真実であるためには、ラベル付けされたトレーニングデータを捨てなければならない。それがバリデーションの仕組みだ。

アルゴリズムに合わせる方向に切り替えたら、存在していた時にひどかった仕事を取り除いたことがどれだけひどかったかっていう別の話が出てくるだろうね。これ、Facebookのモデレーターの仕事やコールセンターの仕事よりは悪くないと思うけど、かなり退屈そうだね。

この実践がどれくらい広がってるのか、ちょっと興味あるな。すべてのLLMが、時には過激なコンテンツにさらされる人間の労働を使ってトレーニングされてるの?最近は大手の三社(OpenAI、Google、Anthropic)以外にも、優れたLLMをトレーニングしてる組織がたくさんあるよね。MistralやMoonshot、Qwen、DeepSeek、Meta、Microsoft(Phi)、Hugging Face、Ai2、MBZUAIなんかはどうなの?彼らもそれぞれ(外注の可能性もある)人間のラベラーのチームを持ってるのかな?モデルカードや論文でこのことについての情報を探してるけど、どうやってやってるのかの透明性が見られることはほとんどないね。

DNN/CNNモデルの背後にある重要な革新の一つはMechanical Turkだった。OpenAIは初期のGPTモデルを改善するために、似たようなシステムを広く使ってたんだ。今でもその実践が続いてるとは驚かないよ。NNモデルは質の高い真実のトレーニングデータがたくさん必要だからね。

なんでここでこの質問をすることで満足のいく答えが得られると思うの?特にHNコミュニティがAIトレーニングのような盛り上がってる話題に対して曖昧な結論を争うのが好きなのに。逆に聞くけど、なんでそう思うの?MistralやMoonshot、Qwenなどが自分たちのデータラベラーを雇ってると思う?数十億ドルで評価される営利団体から、なんでこの種の透明性を期待するの?

以前HNで一度シェアしたことがあるけど、この質問にすごく関連してるし、ほんとに素晴らしい記事だから再度シェアするね。この記事では、アウトソーシングされたラベリング作業の世界を探ってるんだ。残念ながら、関わっている人の数に関する具体的な数字はなかなか得られないみたい。記事にもあるように、「この複雑なサプライチェーンは意図的に把握しづらくなっている。業界の人によると、データを購入する企業は厳格な機密保持を求めている。(これが、ScaleがRemotasksに別の名前を使っている理由だ。)アノテーションは開発中のシステムについて多くを明らかにしてしまうし、必要な労働者の数が膨大なので、漏洩を防ぐのが難しい。アノテーターは、自分の仕事について誰にも話さないように何度も警告されるけど、友達や同僚にも言えない。企業の偽名やプロジェクトのコードネーム、そして極端な労働の分業があるから、話したくても十分な情報を持っていないんだ。(ほとんどの労働者は、プラットフォームから追い出されるのが怖くて偽名を要求している。)その結果、アノテーションに関わる人の数についての詳細な推定はないけど、かなりの数で、しかも増えている。最近のGoogle Researchの論文では「数百万」という規模感が示されていて、「数十億」にもなる可能性があるって。」私も、各モデルのラベリングやフィードバックにどれだけの人間の努力がかかっているのか、もっと知りたいな。

あなたが言った他の企業で一般的なアノテーターをやってたことがあるけど、NDAの関係でどこかは言えない。基本的に、主要なモデルはどれも、どこかからお金が入ってくる限り、ある程度の人間のフィードバックを使っていると思うよ。

すべてのLLMは、時には過激なコンテンツにさらされる人間の労働を使って訓練されているのか? AIトレーニングのためにラベリングを行うビジネスプロセスアウトソーシング企業は、Facebookや他のソーシャルメディア企業にモデレーションサービスを提供しているのと同じ企業が多い。私の花識別AIのために、花の種類ごとにラベル付けされた10万枚の画像が必要だから、そういうことをやっている企業に契約する。Facebookは、モデレーションキューの人間によるレビューを維持するために、「これはISISの首切り動画か?」とラベル付けされた10万枚のフラグ付き画像が必要だ。彼らも同じ企業と契約している。アウトソーシング会社は、作業者をタスク間でローテーションさせるから、誰も一日中ISISの首切り動画を見続ける必要はないんだ。

バカな質問かもしれないけど…人間がこんなに働かずに、どうやってこのモデルを発展させられるの? 理論的にはどうなの?

[仕事] …は個人的なコストがかかってる。おめでとう、ほとんどの仕事を説明したね。アメリカでも、世界の他の地域を考えたら、過酷な労働をしてる人たちの多くは同じかそれ以下の賃金しかもらってないよ。

企業が人に普段やらないことをお金と引き換えにさせるなんて信じられる?こういう記事って、雇われてる人たちに対してエリート的な見方をしてることが多いよね。それがアメリカの右派が左派を嫌う大きな理由の一つだと思う。左派は直接言わないけど、自分の町がどれだけひどいか、今の仕事がどれだけ搾取的かを話すとき、そこに住んでる人たちへの暗黙の判断が含まれてるよ。

私はこれらの企業の一つで契約社員をやってる。専門分野の資格をクリアできれば、時給はまあまあ($45以上)だけど、仕事は安定してないし、コミュニケーションもほとんどない。私がやったコーディングの資格試験は、難しいFAANGのアルゴリズム分析の問題だった。去年から仕事は確実に難しくなってきて、しばしば修士号や博士号レベルの仕事や、5年以上の経験が必要な問題を求められることが多い。定職があればいいのに、ノースカロライナの田舎に住んでるから、リモートワークはなかなか見つからないんだよね。

あなたが今住んでる場所に縛られている理由って、普通の仕事がしたいって気持ちより強いものがあるの?

その給料でこの仕事なら全然いいよ。特にLeetCodeやCSに強いから。どうやって参加するの?

うーん、これってScaleAIっぽいね。

給料はまあまあ(時給45ドル以上) 参考までに、中央値の時給は27ドルだよ。 https://nationalequityatlas.org/indicators/Wages_Median

難しいコンテンツにどれくらい遭遇する? グロテスクなもの、暴力、ヘイトとか。プロンプトがそれを排除すると思うんだけど、私の考えは甘いかな?

「この仕事は確実に去年より難しくなっていて、しばしばマスターや博士号レベルの仕事や、5年以上の経験を持つ人が解決するのに苦労する問題を考えなければならないと言われます。多くの専門家が手を引いていて、私は彼らを責めません。自分の仕事を奪うAIを育てたいと思う人がいるでしょうか?」

何か別のことを見つけた方がいいかもね。業界はこれから良くなることはないと思うし。私はフルタイムのウェブ開発者で、在宅勤務してるけど、HVACの仕事をするために配管工組合に入ることにしたんだ。生命保険、健康保険、給料も良くて、401kや1.5倍から2倍の残業代、年金クレジットが必要だから。今は現金払いだけだし。キャリアの中盤だけど、この業界は私みたいな人を求めてない。私は非常に信頼できる労働者で、何十年もそうだったけど、アメリカ人で、さらに悪いことに白人で、女性とセックスしてて、自分の選んだキャリアからはまともな給料を期待してた。でも、結局それは実現しなかった。いつも給料が低かったり、福利厚生が少なかったり。もし素晴らしい給料と福利厚生を手に入れたら、真っ先に切られるのが私たちなんだよね。そして、年齢はどんどん上がる。学校から来た人や海外から来た人が、もっと安く働くことができるから。私の会社でも、ミシガンで働いてた人が辞めて、メキシコシティから誰かを補充しようとしてる。もう大半の同僚はインドにいるし。あなたも似たような状況みたいだね。他の種類の仕事もいいかもしれない。毎日少し動くのはいいことだし。業界が求めるものを与えてあげて。彼らには安い労働力が必要なんだから。信頼できる従業員なんて求めてないよ。

私も同じだよ。たとえ時給が下がってもフルタイムのコーディングの仕事が欲しいけど、私の地域では給料がすごく低いし、面接すらなかなか受けられない。こういう役割に応募してみようと思うけど、フルタイムで、AmazonやMistral、xAIが採用してるみたいだね。

彼らの仕事はそんなに悪くないと思う。この文章は、シンプルなフリーランスのデスクワークがどうにかして搾取だと描こうとしてるけど、そんな仕事を得るために何でもする人がたくさんいるよ。

いくつかのエピソードは心配になるね。 > 「最初は彼らが『時間を気にしなくていいよ。質と量の戦いだ』と言ってくれた」と彼女は言った。 > でも、すぐに彼女はタスクを完了するのに時間がかかりすぎると指摘された。「私は物事を正しく理解して学ぼうとしていたけど、リーダーたちから『なんでこれが終わらないの? もう1時間もやってるよ』と追い立てられた。」そして、 > ディニカは、こういうパターンを何度も見てきたと言っている。安全性が優先されるのは、市場の優位性を争うレースが遅れるまでだ。人間の労働者は、半分完成したシステムがリリースされた後の後始末をすることが多い。「スピードが倫理を超える」と彼は言った。「AIの安全性の約束は、安全が利益を脅かす瞬間に崩壊する。」最後に、 > ある作業日、彼女のタスクは膀胱癌の化学療法オプションの詳細を入力することだったが、専門家ではないため、彼女を悩ませた。

そうだね、Googleの検索結果でもこれが見えるよ。彼らは内部の指標を改善しようとしてるけど、その指標は明らかにトピックに無知な人たちの評価から生成されてるんだ。だから検索結果は悪化するけど、内部的には良く見える。彼らがこの経験から学んでないのが素晴らしいね、そしてGeminiで同じ間違いを繰り返してる。

これって、Quest Diagnosticsが隠れたタイピストの工場に支えられて、Theranosの領域に滑り込んでるってことじゃないの? これ、2000年代初頭の音声認識スタートアップを思い出すな。すごいデモを見せてたけど、実際はコールセンターの人が全部タイピングして、機械のふりをしてたんだよね。

以前、ツイッターでファウンデーションモデル企業と協力しているデータラベリングのスタートアップのリストを作ったことがあるよ。[1] こちらがRLHFプロバイダーのセクションだ: RLHFプロバイダー: 1. Surge。$10億以上の収益を自己資金で調達。DataAnnotationは労働者側(広告を見たことがあるかも)、TaskUpとGethybridも。 2. Scale。最も有名。RemotasksとOutlierは労働者側。 3. Invisible。管理されたVAサービスとして始まった。 4. Mercor。リモート開発者を雇うために始まったと思う。 5. Handshake AI。Handshakeは大学の採用ネットワーク。これはスピンアウト。 6. Pareto 7. Prolific 8. Toloka 9. Turing 10. Sepal AI。チームは元Turing。 11. Datacurve。コーディングデータ。 12. Snorkel。データラベリングのためのソフトウェアプラットフォームとして始まった。今はデータをサービスとして提供している。 13. Micro1。リモート契約開発者を雇うために始まった。 [1]: https://x.com/chrisbarber/status/1965096585555272072

いいね!出力のRLHFじゃなくて、入力のラベリングに特化した会社ってあるのかな?