AIグループが低コストの「データラベラー」を高額な専門家に置き換えるために支出を増やす

2025年7月20日原文(ft.com)

概要

Financial Times（FT） のデジタル購読プランについて紹介。各プランの特徴や 利用条件 を簡潔に解説。 キャンセル や割引、 組織向け のオプションも説明。 大学や組織 経由の利用可否の確認方法を案内。 世界中の読者 が選ぶ理由も触れる。

FT デジタル購読プランの概要

FTジャーナリズム の高品質な記事を、 全デバイス で閲覧可能なデジタルアクセス
月額料金 はプランごとに異なるが、詳細は公式サイトで案内
トライアル期間中のキャンセル が可能、安心してお試し利用
当日版FT紙面 を全ページデジタルで閲覧できるプランも提供
- ただし、このプランは ft.comやFTアプリへのアクセス は含まれない
年間一括払いで 20%割引 の特典があるプランも用意
業界リーダーによる専門分析 を含む上位プランも選択可能

学術・組織向けアクセスと確認方法

大学や組織 を通じて既にアクセス権を持っている場合も
利用可否は 所属大学や組織の担当窓口 で確認
国ごとの利用可能プラン は公式サイトで検索可能

法人向けデジタルアクセス

組織向けのデジタルアクセス プランを提供
- 独自機能や限定コンテンツ を含む
複数人での利用や業務利用に最適

Financial Timesが選ばれる理由

100万人以上 の読者が有料購読
信頼性の高い報道 と 専門的な分析記事
ビジネス・経済情報 のグローバルスタンダード

Hackerたちの意見

https://archive.is/dkZVy

これらのデータセットのいくつかが無料で公開されるといいな。そうじゃないと、結局は複数の企業がお金を稼ぐために無駄な作業を重複させるだけになっちゃう。もしかしたら、AIに関連するヨーロッパの取り組みがもっとオープンなデータセットの作成を含むことになるかもしれない。でも、まだデータセットが自分の「モート」の一部だという考え方から抜け出せていないのかも。そんな考え方だと、イノベーションの源が大きな研究所のいくつかに限られちゃう気がする。

└

データセットが自分の「モート」の一部だという考え方まさにその通り。モデルを形作るのはデータセットで、モデルはデータセットの産物なんだよね、逆じゃないんだ。（合成データセットは別だけど…）

└

高品質なデータセットを作成するためにお金を払っている企業が、なんでそれを無料で配ると思う？

└

そうだね、彼らはこのデータにかなりのお金を払ってる。これをやってる人を知ってるけど、一つのプロンプト評価が何度もラウンドを重ねて、最終的に150ドル以上の報酬が出ることもある。それは労働者が受け取る分だけどね。でも、記事が言ってることとはちょっと違うかも。各企業はそれぞれ少しずつやり方が違うんだ。

└

もしかしたら、AIに関連するいくつかのヨーロッパの取り組みが、もっとオープンなデータセットの作成を含むことになるかもしれないね。EUは、加盟国間の協力を促進するための重要な戦略を特定するための話し合いを開くプロセスを始めたんだ。これによって、広範囲にわたる会議を生成し、プロセスを処理するための立法を通過させるための多国間合意に達する道が開かれることを期待している。

└

これはウィキペディアのようなモデルでうまくいくかもしれないね。実現するのは非常に難しいけど、次世代のウィキペディアはこんな感じになるだろう。

└

心配しないで。ラボはこの専門家データに基づいてトレーニングするから、みんな自分のモデルを洗練させるだけだよ。それに、モデル自体が専門的なアノテーターになることもできるしね。

バイオメディスンにとってこれはずっと待たれていたことだね。2024年にMedGeminiのために作られたGoogle DeepMindの再ラベル付けされたMedQAデータセットにも欠陥がある。多くの医療データセットやベンチマークには、正確性のインセンティブがないために汚れたデータが含まれているし、適切なアノテーターも少ない。最前線のモデルを評価するために900の新しい質問をスタンフォードの医師にアノテートしてもらうためにお金を払わなきゃいけなかったし、これらは誰でも使えるようにHugging Faceでオープンソースとして公開する予定だよ。VQAや神経学、小児科、精神科などの専門分野をカバーしている。ラボが早期アクセスを希望するなら、ぜひ連絡してね。（プロフィールに情報あり。）データセットのフォーマットを最終調整中だよ。一般的なLLMとは違って、ノイズが許容されることもあるけど、誤った情報や古い情報でトレーニングすると臨床エラーや誤った折りたたみのタンパク質、オフターゲット効果のある薬が生まれるかもしれない。さらに厄介なのは、医療の事実が変わることでトレーニングデータやモデルの知識が無効になることだ。去年正しかったことが、今日には間違っているかもしれない。例えば、2024年4月にアメリカの予防サービス作業部会が長年のアドバイスを覆して、平均リスクの女性には40歳から2年ごとのマンモグラムを勧めるようになったんだ。これまでは50歳が基準だったのに、若い患者の乳がん発生率が上昇しているからだって。

└

これは、私が過去10年間取り組んできたすべてのサブフィールドに当てはまる。機械学習研究の隠れた真実は、スタージョンの法則がデータセットにも当てはまるってこと - 世の中のデータの90%はクソだよ。何百もの引用があるNLPデータセットを見たことがあるけど、実際に「努力」をしてサンプルを見てみると、明らかに価値がないってわかる。

└

もう少し詳しく言うと、エラーはデータを超えてモデル設計にも影響する。二つの簡単な例を挙げると、1. ヌクレオチドはトークン化の一形態で、バイアスをエンコードしている。人々が思っているほど生のデータではない。例えば、古典的なFASTAは修正されたCと標準的なCを同一視する。違いが遺伝子発現を変えることがある - 「ポーランド語」と「磨く」の違いのように。2. 鎌状赤血球貧血や他の病気はヌクレオチドの違いに関連している。これらの単一ヌクレオチド多型（SNP）は、DNAの問題に対して厳密な注意を意味し、特定の医療アプリケーションでは単一塩基の解像度が譲れない。潜在モデルはテキストから画像や言語で成功を収めているが、研究者はこれらの仮定を医療に盲目的に持ち込むことはできない。バイオメディカルAIにはまだ多くのオープンな問題がある。私たちの経験では、それに立ち向かうことで他のタイプのモデルを設計する際により良い帰納的バイアスが促されることがあった。もっと多くの人がバイオメディカルAIについて考える必要があるね。

└

医療業界内で大きな意見の相違がある場合はどうなるんだろう？例えば、イソトレチノインは多くの国でニキビの治療に使われているけど、他の国では副作用のために禁止されたり、アクセスが制限されたりしているんだ。

Hacker Newsで議論の続きを見る

ハクソク