世界を動かす技術を、日本語で。

AIツールが世界を奇妙に見せている

概要

  • AIは「人間らしさ」と比較されることが多い現状
  • しかし「人間」とは誰を指すのかという問題提起
  • WEIRD(西洋・高学歴・工業化・富裕・民主主義)な人々が基準とされがち
  • AIは特にアメリカ的思考に偏る傾向
  • 文化的距離が遠い国ほどAIのシミュレーション精度が低下

AIの「人間らしさ」とWEIRDバイアス

  • 学術界やメディアでは、AIが 人間の心理や推論能力 を模倣すると説明されがち
  • ここでいう「人間」は、しばしば 基準として扱われる存在
  • 2010年以降、心理学の「普遍的真理」が WEIRDな人々 に限定されていることが議論
    • Western(西洋)
    • Educated(高学歴)
    • Industrialised(工業化)
    • Rich(富裕)
    • Democratic(民主主義)
  • 例えば「私は自律した個人だ」という感覚も、 人類全体では一部の価値観

AIの文化的偏りと限界

  • 2023年のHarvard Universityの論文では「どの人間を基準にするのか」と問題提起
  • AIツールが「人間らしい」とされるとき、実際は WEIRD的な人間像 に近い
  • さらにAIは特に アメリカ的思考 に強く偏る傾向
  • アメリカとの文化的距離が広がるほど、 ChatGPTによる価値観のシミュレーション精度が低下
    • 例:LibyaやPakistanでは コイントス程度の精度

まとめ:AIの「人間らしさ」の再考

  • 「人間らしいAI」という表現は、 特定の文化的背景 を反映
  • AIの設計・評価においては、 多様な人間性 を考慮する必要性
  • 今後は「どの人間」を指すのかを明確にし、 グローバルな視点 でAIを捉える重要性

Hackerたちの意見

WEIRDは「西洋、教育を受けた、工業化された、裕福な、民主的な」という意味だよ。

「weird」を侮辱として使う人が急増してるのを見たよ(古い侮辱はSNSでシャドウバンされるから、優しく言えばそういう理由で、あまり優しくない言い方をすれば、主流が重視するのはコンフォーミズムだから)、だから著者はここで自分の意図を隠そうともしてないね。

世界価値観調査に対するChatGPTの反応が、オーストラリア人やニュージーランド人の反応と最も密接に関連しているのが興味深いね。

HRLFトレーナーの文化が影響していると思う。もしかしたら、オーストラリアやニュージーランドからの人が多いのかもね。英語を母国語とする国で、賃金が低い可能性があるから。

(TFAが言うように)カリフォルニア人と最も近い関係になると思うけど、それはデータには出てないね。

この略語を生み出した本は本当におすすめだよ。「世界で最も変わった人々」っていうジョセフ・ヘンリックの本なんだけど、周りの世界を理解するのにすごく役立つ内容なんだ。彼は人類学者で、心理学にも踏み込んでる。宗教が今日のアメリカを形作るのにどう関わっているかとか、人間が今は顔を見分けるのが苦手になっている理由(文字や言葉を見分けるために脳の力を使っているから)についても触れている。興味深い研究がたくさん紹介されていて、特に印象に残ったのは、プロテスタントに育てられたアメリカ人が、カトリックや無神論者と比べて、近親相姦的な考えを持った後に次の日にもっと頑張るっていう研究結果。彼は、モノガミーが今日の西洋的な見方に大きく影響していることや、ユタ州のモルモンの町がモノガミーを基盤にしていないことでどう影響を受けたか(そこでは、下位の男性の唯一の妻になるよりも、より良い男性の2番目の妻になることを好む女性が多い)についても説明している。イタリア北部が今日より発展しているのは、かつて神聖ローマ帝国の一部だったからだという主張もあって、南部とは約千年の隔たりがあるのに、今でもその影響があると彼は言っている。主に、公共の読み書きの普及がプロテスタント主義の核心的な要素であることに関連している。とにかく、これは本の要約じゃなくて、読んだ後に特に印象に残ったポイントだよ。面白い内容だね。

「イタリア北部が今日より発展しているのは、かつて神聖ローマ帝国の一部だったからだという主張もあって、南部とは約千年の隔たりがあるのに、今でもその影響がある。」 そうだね、イタリアの北部と南部は地理や気候が全然違うから、それが文化的な面でもいろんな影響を与えていると思う。イタリアの二つの半分の地理は、異なるタイプの経済活動を支えているし、これらの異なる経済の中での社会的現実が、自然に文化の大きな違いに進化していくんだ。(比較してみて:アメリカの沿岸部と中西部の文化の違い。これが数千年の時間を経てさらに分かれていくのを想像してみて。)歴史は一度しか起こらないけど、地理は常に国に影響を与え続ける。だから、国の中の二つのサブポピュレーションが今日目立った違いを持っている理由を探しているなら、異なる地理が「馬」にあたる一方で、歴史は「シマウマ」みたいなものだね。とはいえ、地理も歴史を制約することがある。南イタリアはほぼ全て海岸線で、過去約2000年間、みんなが海からお互いを侵略し合っていた地域なんだ。北イタリアは、首都が内陸に位置できるため、両生攻撃には比較的強かった。ローマ自体は例外だけど、南イタリアにあったローマ帝国の巨大な海軍が南イタリアの海岸に停泊していたおかげで、両生攻撃から守られていたんだ。ローマ帝国が消えた後、南イタリアの大きな富裕都市は突然征服や略奪の魅力的なターゲットになったんだよ。

本は読んでないけど、すごく面白そうだね。トーンについてだけど、>「一夫一婦制が今日の西洋の見方に多くの責任を負わせている」って言ってるけど、著者は「責任を負わせる」って言葉を「理由」として使ってるのかな?それとも一夫一婦制への批判として提示してるのかな?大したことじゃないけど、見たときにちょっと気になった。

インターネットをランダムに歩き回る中で、次に読む本のリストを作るのが一番の楽しみの一つなんだ。これを教えてくれてありがとう!

人間は今日、顔を見分けるのが最も苦手になっているのは、文字や言葉を見分ける必要があって、そのために脳の力を使っているからだ。これを裏付けるものは全くないけど、直感的にこれは大胆な主張になって、しばらくの間走り回ってから反論されるリスクがある気がする。

ちょっと聞きたいんだけど(攻撃的な意味じゃないよ)、再現性危機が進行中の今、あなたが言ってる本が人間の行動に関する「お手軽すぎる」研究の要約を反映してる可能性はどれくらいあると思う?興味深い見出しには見えるけど、数年後には完全に無駄になってることが多いよね。何年もかけて、誰かが「カクテルパーティー的な」軽い意見と呼んだような推論の連鎖を見てきたけど、それは掘り下げない限り続くものだと思う。私たちの心理や行動に関する心地よい意見は、後で分析すると崩れちゃうんだよね。これらの軽い意見が、非常に小さな一回限りの研究(再現されてない)に基づいて、私たちの広い見解を快適に肯定するために集まってしまったように感じる。あなたの本の推薦についてこんなことを言うのは心苦しいけど(読んだことないから許してね)、再現性危機のこの数年を考えると、あなたが説明していることは本当に成立していると思う?

人類学者は信頼を得るまでにあと数世代かかるね。

そこでは、女性は下位の男性の唯一の妻になるよりも、より良い男性の2番目の妻であることを好む傾向がある。あなたは「2番目」が「二次的」だと思ってるんじゃない?結婚の当事者たちは「2番目」が「最近割り当てられた」という意味だと思ってるかもね。

彼は、一夫一婦制が今日の西洋の多くの見解にどれだけ影響を与えているか、そしてユタ州のモルモンの町が一夫一婦制を社会の基盤にしていないことでどう影響を受けたかを説明している。そこでは、女性たちは自分よりもランクの高い男性の2番目の妻になることを好む傾向があるらしい。ランクの低い男性でいるのは辛そうだね、笑

制度的な乖離についての一般的なポイントは理解できるけど、千年にわたる歴史的因果関係にはちょっと慎重になっちゃうな。

今日知ったことだけど、ローマは神聖ローマ帝国の一部じゃなかったんだって。ヴォルテールによれば、「聖なるものでもなく、ローマでもなく、帝国でもない」らしい。

ほとんどすべての文脈で専門的なトレーニングが価値をもたらすかもしれないね。人々は育った場所や住んでいる場所、職業や社会階級、その他の要因によって大きく異なることが多い。基本的に同じ背景を持つ労働者でも、異なる職業を持つと、共通の作業に対する認識やフレーミングが全然違ってくることがあるよ。

ここには確かに実際の影響があるけど、個人的には元の記事の問題点はアメリカだけを基準にしているところだと思う。アメリカが世界の問題において支配的な立場にあるのは確かだし、トレーニング資料のほとんどがそこから来ているんだろうけど、他にも説明がつかないような異常な結果がいくつかあるよね。例えば、ChatGPTはアメリカよりも日本にもっと合ってるんだよね。

例えば、ChatGPTはアメリカよりも日本にもっと合ってる って言うけど、実際にもっと合ってるの?それとも単に日本の文化やメディアの要素に合ってるだけなのかな、西洋に輸出されるやつ。

一つの可能性として、アラインメントは価値観の文化的距離だけでなく、トレーニングデータにおけるテキストの表現にも関係しているかもしれないね。

見出しは大文字のままにすべきだね。ここでのWEIRDは普通の「変な」とは違うから。

ジェミニに、英語を話さない国や文化について質問する時に、現地の言語に翻訳してから再び英語に戻す指示を保存してあるんだ。結構うまくいくみたいだけど、それはその言語でトレーニングされた内容が違うからだと思う。インドネシア料理については、インドネシア語での方がもっと深い議論があるだろうし、国が裕福か民主的かは出力にあまり影響しないはずだよ。

面白いね!私はターゲット言語でプロンプトを与えることで同じことを手動でやってるよ。結果が大きく変わるからね。ウェブ検索は昔からそうなんだ。ウェブは常に言語によって文化的に区切られてて、私が呼ぶ「英語のウェブ」だけが全てじゃないよ。

ChatGPTみたいなのに、他の文化の人のように返答するように頼んだらどうなるんだろう?つまり、問題はデフォルトにあるのか、それともAIが他の文化から応答するのは不可能なのか、ってことだね。

「非アメリカのLLM(例えば、DeepSeek、Mistral、Apertus)はここでどうなの?パフォーマンスは良いのか悪いのか?それに、文化的バイアスが組み込まれてるのかな?」私も同じことを考えてるんだけど、「英語以外の言語でプロンプトを与えたら、LLMのパフォーマンスはどうなるの?」っていう関連の質問も気になる。

ChatGPTはロシア語だとイマイチなんだよね。例を挙げると、特定のロシアの本に名前が出てきたことを正確に指摘した後、「その名前の直接引用をロシア語で欲しい?」って聞いてきた。私は「はい」って答えたんだけど、その時からロシア語の出力に切り替わったのに、その本の中で名前を見つけられなくなって、「前に言ったのは『近似』だったかもしれない」と謝ってきた。(その後、自分でその本を確認したけど、ChatGPTの英語の情報は合ってた。名前はちゃんとあったよ。)

トレーニングデータセットは大体同じだと思うけど、違う言語でプロンプトを与えると大きな影響があるかもしれないね。

実際、この論文はそれ以上に、アメリカ的だと考えている。主にredditでトレーニングされているから、redditが象徴するものを反映しているんだと思う。ボットや政治活動家が溢れかえっているサイトを考えると、あまり良いことじゃないよね。

その通りだね!Redditみたいなソーシャルメディアは、反応を引き起こそうとするボットやおべっか使い、トロールで溢れてる。これがエコーチェンバーを形成して、トレーニングデータの質が下がって、LLMの応答にもそのバイアスが反映されるんだよね。

それがトレーニング中にトークンフィルタリングでどれだけ残るのか気になるな。