「過労で低賃金」の人々がGoogleのAIを訓練する

2025年9月13日原文(theguardian.com)

概要

2024年春、Rachael SawyerはGoogleのAI製品の アウトプット評価 を担当することに
仕事内容はAI生成コンテンツの 評価・モデレーション であり、想定外の過酷さ
多くのAI評価者が 精神的負担 やサポート不足を訴える現状
評価者は 契約社員 として低賃金かつ不安定な立場で働く
AI開発の裏にある「 見えない人間労働」の現実

GoogleのAI評価者：見えない労働力の実態

Rachael Sawyerは Texas出身のテクニカルライター、2024年春に「Writing Analyst」として採用
実際の業務は AI生成コンテンツの評価とモデレーション、特にGoogle Geminiの出力が対象
初期は 議事録やチャットの要約確認、時にはAI作成の短編映像のレビューも
徐々に 暴力的・性的な不適切コンテンツの専属モデレーション 業務へ移行
採用時に 業務内容の説明や同意書なし、精神的負担増大
Sawyerは 毎日多数のタスクを短時間で処理 するプレッシャーから不安・パニック発作を経験
精神的サポートや適切なケアが 雇用主から提供されていない 現状

GoogleのAI評価業務の構造

Googleは Hitachi傘下のGlobalLogic などを通じて数千人規模のAI評価者を契約
主な業務は GeminiやAI Overviewsの出力評価・モデレーション
AccentureやAppen など他の企業もAI評価サービスを提供
評価者は 医療・建築・天文学など多分野の出力を校正・修正、誤りや有害な回答の是正
AIモデルの精度向上には 人間評価者の知見が不可欠
データラベリング担当者より高賃金 だが、エンジニアよりはるかに低収入

評価者の待遇と課題

GlobalLogicのAI評価者は 一般評価者で時給16ドル、上級評価者で21ドルから
専門知識を有する評価者も多く在籍、元教師や作家、PhD保持者も
締め切りの短縮・作業量の増加 により、品質や安全性への懸念が高まる
孤立した環境、急変するガイドライン、情報不足といった課題
複数評価者による合議制 だが、社会的圧力や主導権争いで結果が歪むことも

AIの安全性とモデレーションの限界

2024年5月、GoogleのAI Overviewsが 誤情報（例：ピザに接着剤、石を食べる等） を出し話題に
社内では 品質重視の方針転換 も短期間で終了
十分なトレーニングや専門知識のないまま ヘルスケアや金融など重要分野の評価を担当
2023年12月以降、 専門外の質問もスキップ不可、一部だけ評価し「専門知識なし」と記載する指示
倫理的責任や精神的負担 が評価者に集中

AI開発の裏にある人間労働

AIモデルの進化には 膨大な人間の評価・修正作業 が不可欠
「AIは魔法ではなく、人間労働のピラミッド構造」 との指摘
評価者は 不可視かつ消耗品扱い、正当な評価やサポートが不足
Googleは「 品質評価は一つの指標に過ぎず、直接モデルに影響しない」と説明

まとめ：AIの進化と人間評価者の現実

AIの進化の裏には 多くの人間による見えない労働 が存在
低賃金・高ストレス・専門外業務 に苦しむ評価者たち
AIの安全性と品質管理の限界、倫理的課題の浮き彫り
今後のAI開発において 評価者の待遇改善や精神的ケア の重要性が増す

Hackerたちの意見

タイトルは偏っていて、Googleが人を虐待しているように責めているし、GoogleのAIが賢くないことを暗示してるけど、OPは読んでみる価値があるよ。人間のフィードバックをAIモデルに提供するための労力やコストについての感覚を与えてくれるからね。RLHFのHF部分だね。人間にとって受け入れられる行動をするように、もっと人間の期待や価値観、好みに沿った形にするために必要なんだ。

└

AIモデルが人間の価値観や好みにもっと沿うようにするために。で、その普遍的な人間の価値観や好みって何？それともシリコンバレーの経営者たちの価値観のことを言ってるの？

└

ソーヤーは、Googleのために日本の大手企業ヒタチのGlobalLogicを通じて契約された数千人のAIワーカーの一人だよ。GoogleのAI製品の出力を評価したりモデレートしたりしてる… 見方次第だね。Googleみたいなブランドは、サプライチェーンの一段階下をしっかり確認すべきだと思う。

└

AIモデルが人間の価値観や好みにもっと沿うようにするために。AIモデルがGoogleの価値観や好みにもっと沿うようにするために。これで合ってるよね。

└

RLHF（その進化版のRLAIFも含めて）は、実際には「価値観や好み」を設定する以上のことに使われてる。AIモデルが単に与えられたテキストを続けるだけじゃなくて、認識可能な行動をするためのものなんだ。「ChatGPT」の「チャット」部分が機能するための仕組みだよ。

└

「人間の価値観」って何？誰の好みなの？

└

それって主にファインチューニングの段階じゃない？RLHFはその上に乗っかる感じ？

タイトルはちょっと誤解を招く感じだね。この記事からの引用だけど（GlobalLogicはGoogleと契約している会社）：「GlobalLogicのAI評価者は、アフリカや南アメリカのデータラベリング担当者よりも高い給料をもらっていて、一般的な評価者は時給16ドル、スーパーレイターは時給21ドルから始まると、働いている人たちが言ってる。一部の人はアメリカの雇用市場が悪化する中で仕事があることに感謝しているけど、他の人はGoogleのAI製品を良くしようとすることが個人的なコストを伴っていると言っている。」

「Googleは声明でこう言った：『質の高い評価者は私たちのサプライヤーによって雇われていて、私たちの製品に対する外部のフィードバックを提供するために一時的に配置されています。彼らの評価は、私たちのシステムがどれだけうまく機能しているかを測るための多くの集約データポイントの一つですが、私たちのアルゴリズムやモデルに直接影響を与えるものではありません。』GlobalLogicはこの件についてコメントを控えた。」（強調は私のもの）これがどうして単なる嘘じゃないの？これが真実であるためには、ラベル付けされたトレーニングデータを捨てなきゃいけないよ。

└

彼らはおそらく、RLHFを行うには十分な規模でやっていないけど、プロジェクトや製品に取り組んでいる人たちにはまだ役立つフィードバックだよ。

└

彼らはRLHFを実装するためじゃなくて、品質指標を計算するためにやってるんだよ。これはトレーニングデータじゃない。

└

キーワードは「直接的に」。間接的にそうしてるから、真実だけど誤解を招く表現だね。

Hacker Newsで議論の続きを見る

ハクソク