世界を動かす技術を、日本語で。

AIグループが低コストの「データラベラー」を高額な専門家に置き換えるために支出を増やす

概要

Financial Times(FT) のデジタル購読プランについて紹介。 各プランの 特徴利用条件 を簡潔に解説。 キャンセル割引組織向け のオプションも説明。 大学や組織 経由の利用可否の確認方法を案内。 世界中の読者 が選ぶ理由も触れる。

FT デジタル購読プランの概要

  • FTジャーナリズム の高品質な記事を、 全デバイス で閲覧可能なデジタルアクセス
  • 月額料金 はプランごとに異なるが、詳細は公式サイトで案内
  • トライアル期間中のキャンセル が可能、安心してお試し利用
  • 当日版FT紙面 を全ページデジタルで閲覧できるプランも提供
    • ただし、このプランは ft.comやFTアプリへのアクセス は含まれない
  • 年間一括払いで 20%割引 の特典があるプランも用意
  • 業界リーダーによる専門分析 を含む上位プランも選択可能

学術・組織向けアクセスと確認方法

  • 大学や組織 を通じて既にアクセス権を持っている場合も
  • 利用可否は 所属大学や組織の担当窓口 で確認
  • 国ごとの利用可能プラン は公式サイトで検索可能

法人向けデジタルアクセス

  • 組織向けのデジタルアクセス プランを提供
    • 独自機能や限定コンテンツ を含む
  • 複数人での利用や業務利用に最適

Financial Timesが選ばれる理由

  • 100万人以上 の読者が有料購読
  • 信頼性の高い報道専門的な分析記事
  • ビジネス・経済情報 のグローバルスタンダード

Hackerたちの意見

https://archive.is/dkZVy

これらのデータセットのいくつかが無料で公開されるといいな。そうじゃないと、結局は複数の企業がお金を稼ぐために無駄な作業を重複させるだけになっちゃう。もしかしたら、AIに関連するヨーロッパの取り組みがもっとオープンなデータセットの作成を含むことになるかもしれない。でも、まだデータセットが自分の「モート」の一部だという考え方から抜け出せていないのかも。そんな考え方だと、イノベーションの源が大きな研究所のいくつかに限られちゃう気がする。

データセットが自分の「モート」の一部だという考え方 まさにその通り。モデルを形作るのはデータセットで、モデルはデータセットの産物なんだよね、逆じゃないんだ。(合成データセットは別だけど…)

高品質なデータセットを作成するためにお金を払っている企業が、なんでそれを無料で配ると思う?

そうだね、彼らはこのデータにかなりのお金を払ってる。これをやってる人を知ってるけど、一つのプロンプト評価が何度もラウンドを重ねて、最終的に150ドル以上の報酬が出ることもある。それは労働者が受け取る分だけどね。でも、記事が言ってることとはちょっと違うかも。各企業はそれぞれ少しずつやり方が違うんだ。

もしかしたら、AIに関連するいくつかのヨーロッパの取り組みが、もっとオープンなデータセットの作成を含むことになるかもしれないね。EUは、加盟国間の協力を促進するための重要な戦略を特定するための話し合いを開くプロセスを始めたんだ。これによって、広範囲にわたる会議を生成し、プロセスを処理するための立法を通過させるための多国間合意に達する道が開かれることを期待している。

これはウィキペディアのようなモデルでうまくいくかもしれないね。実現するのは非常に難しいけど、次世代のウィキペディアはこんな感じになるだろう。

心配しないで。ラボはこの専門家データに基づいてトレーニングするから、みんな自分のモデルを洗練させるだけだよ。それに、モデル自体が専門的なアノテーターになることもできるしね。

バイオメディスンにとってこれはずっと待たれていたことだね。2024年にMedGeminiのために作られたGoogle DeepMindの再ラベル付けされたMedQAデータセットにも欠陥がある。多くの医療データセットやベンチマークには、正確性のインセンティブがないために汚れたデータが含まれているし、適切なアノテーターも少ない。最前線のモデルを評価するために900の新しい質問をスタンフォードの医師にアノテートしてもらうためにお金を払わなきゃいけなかったし、これらは誰でも使えるようにHugging Faceでオープンソースとして公開する予定だよ。VQAや神経学、小児科、精神科などの専門分野をカバーしている。ラボが早期アクセスを希望するなら、ぜひ連絡してね。(プロフィールに情報あり。)データセットのフォーマットを最終調整中だよ。一般的なLLMとは違って、ノイズが許容されることもあるけど、誤った情報や古い情報でトレーニングすると臨床エラーや誤った折りたたみのタンパク質、オフターゲット効果のある薬が生まれるかもしれない。さらに厄介なのは、医療の事実が変わることでトレーニングデータやモデルの知識が無効になることだ。去年正しかったことが、今日には間違っているかもしれない。例えば、2024年4月にアメリカの予防サービス作業部会が長年のアドバイスを覆して、平均リスクの女性には40歳から2年ごとのマンモグラムを勧めるようになったんだ。これまでは50歳が基準だったのに、若い患者の乳がん発生率が上昇しているからだって。

これは、私が過去10年間取り組んできたすべてのサブフィールドに当てはまる。機械学習研究の隠れた真実は、スタージョンの法則がデータセットにも当てはまるってこと - 世の中のデータの90%はクソだよ。何百もの引用があるNLPデータセットを見たことがあるけど、実際に「努力」をしてサンプルを見てみると、明らかに価値がないってわかる。

もう少し詳しく言うと、エラーはデータを超えてモデル設計にも影響する。二つの簡単な例を挙げると、1. ヌクレオチドはトークン化の一形態で、バイアスをエンコードしている。人々が思っているほど生のデータではない。例えば、古典的なFASTAは修正されたCと標準的なCを同一視する。違いが遺伝子発現を変えることがある - 「ポーランド語」と「磨く」の違いのように。2. 鎌状赤血球貧血や他の病気はヌクレオチドの違いに関連している。これらの単一ヌクレオチド多型(SNP)は、DNAの問題に対して厳密な注意を意味し、特定の医療アプリケーションでは単一塩基の解像度が譲れない。潜在モデルはテキストから画像や言語で成功を収めているが、研究者はこれらの仮定を医療に盲目的に持ち込むことはできない。バイオメディカルAIにはまだ多くのオープンな問題がある。私たちの経験では、それに立ち向かうことで他のタイプのモデルを設計する際により良い帰納的バイアスが促されることがあった。もっと多くの人がバイオメディカルAIについて考える必要があるね。

医療業界内で大きな意見の相違がある場合はどうなるんだろう?例えば、イソトレチノインは多くの国でニキビの治療に使われているけど、他の国では副作用のために禁止されたり、アクセスが制限されたりしているんだ。

トレーニングデータのキュレーションで見落とされがちな側面は、正確だけど間接的なデータの価値だと思う。LLMの「新たな能力」の多くは、データに埋め込まれた、明白ではない暗示的または推測的な意味情報から来ている。この非常に有用な情報を抽出するには、特定の事実とは違って、問題空間のオフアクシスな画像がたくさん必要なんだ。隣接する斜めのデータセットの価値は過小評価されるべきではないよ。

医療データをAIのためにラベリングするのは、無免許の医療行為として違法じゃないの?法律データも同じことだよね。

昨年の真実が今日の真実とは限らない。例えば、... 医療QAデータセットが変わる良い例だけど、医療の"事実"の良い例ではないね。これは意見だから。時間とともに医療のターゲットが変わることを考える別の方法は、環境や行動リスクファクターの変化みたいなものだね。とにかく、このデータセットをまとめてくれてありがとう。慎重なアノテーションが施された第三者のベンチマークがもっと必要だと思う。データの事実観察、人口規模の意見(ガイドライン/推奨)、個人規模の意見(予後/診断)を分けるのが賢明だと思う。最終的にはOMOP CDMのような正式な分類法が必要になるかもしれないし、もしかしたらPubMedの隅っこに既にあるかもしれないね。

Centaur Labsは医療データのラベリングをやってるよ。 https://centaur.ai/

合成データ生成技術が専門家の検証と組み合わさって、高品質なバイオメディカルデータセットをスケールアップしつつ、アノテーションの負担を減らすのが増えてきてる。特に実際の例が限られている希少な病状にとってはめっちゃ役立つね。

この分野で2つのプロバイダーのレビューや注釈の仕事をしてきたから、MScやPhDを持った専門家を探しているプロバイダーからよく声をかけられるんだ。 "高給"って言うのは誇張かもしれないけど、確かに一部の人はそれなりに稼げるよ。あるプロバイダーでは、例外的に彼らの通常のレートの6倍ももらったことがある。高いスキルを持った人を見つけるのが難しかったから、他の人がやった仕事の監査やレビューをするために、通常のレートを受け入れてくれる人が必要だったんだ。自分だけが高い報酬をもらっていたわけじゃないってことは分かってる。確かに良い報酬をもらったけど、6倍のレートでも、実際のタスク数を見積もられて、その見積もりをかなり上回ることができたからなんだ。もし見積もりが実際のスピードに合っていたら、通常のレートの下限ギリギリだったと思う。明らかに仕事にはピラミッドがあって、ほとんどの作業は低コストのラベラーにやらせて、少しずつ高額な専門家にデータの小さな部分を回していく仕組みがある。例えば、合成データから始めて専門家が費やす時間を減らすためのツールも作られている。自分がそのピラミッドの頂点にいるとは思わないけど、働いていたプロバイダーは深い専門知識が必要なプロンプトはあまり扱ってなかった。とはいえ、自分の長い間眠っていた数学や物理の知識を使う機会はあったけどね。大体、我々が扱ったことは、せいぜいSTEM分野のMScレベルのスキルが必要なものだったと思う。だから、PhDレベルの複雑なデータを扱う層はもっとあるはず。でも、私が連絡を受けている採用担当者から見る限り、彼らの給料はそれほど高くない印象がある(もちろん、上で言ったように、実際に高い報酬をもらっている人もいるだろうけど)。これらの作業の流れは非常に複雑で、しばしば複数のレビュー段階があり、時には複数の「競合する」アノテーターが並行して選定やレビュー段階に関与していることもある。

[重複]

今朝、これらの「高品質データセット」の契約仕事について連絡があったばかりなんだ。特に人気のあるリポジトリに貢献しているPythonプログラマーを探していたみたい。自分は約300スターのリポジトリを維持しているから、ちょっと興味があったけど、彼らが提示したレートは時給50〜90ドルで、低コストのデータラベラーがもらっている金額よりかなり高かった。もちろん、スパムとしてマークしたけどね。GitHubを通じてメールを収集するのは汚いと思うし、リクルーターがYCの会社のために動いているのを見て悲しかったよ。

最近見たオファーは、週20時間で時給150ドルから210ドルだったよ。追求しなかったから、実際にみんながどれくらい稼いでるかは分からないけど、面白いデータポイントだね。

Redditの広告で提示される価格が上がってるのに気づいたから、これが単に高すぎるアプローチになるんじゃないかって疑ってる。こういう風に連絡してくるってことは、広告で雇った人たちから良い結果が得られなかったって気づいたんだろうね。

関係があるか分からないけど、データラベリングやデータQAに関連するコンサルティングの仕事のコールドコールやアプローチが増えているのに気づいた。自分はアナリストとして働いているけど、2年以上前にはそんなリクエストはなかったんだ。

ここ数年、業界の大手企業でこれをやってるんだけど、プロジェクトがどんどん複雑になっていくのを見てて面白いよ。それに、モデルにはまだまだ問題が多いしね。人文系のバックグラウンドがあるから、"より良い" AIモデルの反応がどれだけ主観的かを理解するのに役立ってる。経験についての質問があれば、行動規範に従って答えるよ(トラブルにならないように…)。

ありがとう、興味あるよ。行動規範の範囲内で:- 理由のトレース、反応、またはその両方を提供してる? - 理由のトレース、反応、またはその両方を評価してる? - あなたの仕事はマルチターンや長期タスクにシフトしてる? - 実際のユーザーのチャットログも扱ってるなら、それらは適切に匿名化されてると思う?それとも、特に努力しなくても非匿名化できると思う? - 他の評価者と連絡を取ってる? - あなたや同僚はこの仕事についてどう感じてる?(例えば、「自分の後釜を育てる」ことに対する道徳的な葛藤や、文明を進めることに誇りを感じてるとか、単にお金のためとか…)

これにどうやって関わるのか、どんな分野を探してるのか気になるな。

どんなデータに取り組んでるの?コーディング?それとも他の何か?AIモデルがニッチなコーディング言語の専門知識をどれくらい求めてるのか、あと法律や医療、金融などの知識のフロンティアにどんな焦点を当ててるのか、すごく気になる。

民間企業が、役に立たないデータセットをタグ付けして売ることでマネタイズできることに気づくのは時間の問題だよね(おそらくブローカーを通して)。'レガシー'ビジネスの評価に与える影響はかなり大きいかもしれない。

もう始まってるよ。

データラベリング会社を始めるのは、AIに関わる最もAIらしくない方法だね。

ある人はシャベルを売り、別の人はそれを使う労働力を売るんだよね。

トレーニングデータはオープンであるべきだ。著作権を廃止する時が来た。ニューラルネットのトレーニングや、そのために使われたデータの公開に関しては著作権保護の対象外にすべきだと思う。もしライセンスなしで自分のコンテンツを消費する人たちに文句があるなら、個別に追及するか、自分のコンテンツを売ってる人たちを追い詰めるべきだよ。でも、進歩の現代のエンジンには手を出さないで。著作権の目的は進歩を促進することだったんだから、それが障害になる瞬間には無くなるべきだ。誰も自分のレガシービジネスモデルに権利を持ってるわけじゃない。