世界を動かす技術を、日本語で。

ChatGPT Healthは医療緊急事態を認識できない – 研究

概要

  • ChatGPT Healthは医療緊急対応や自殺念慮の検出に失敗するケースが多いという独立評価
  • 実際の患者シナリオを用いた検証で、半数以上の緊急事例を過小評価
  • 誤ったアドバイスが不必要な被害や死亡につながる懸念
  • OpenAIは継続的なアップデートや独立評価への歓迎姿勢を示す
  • 専門家は安全基準や独立監査の必要性を強調

ChatGPT Healthの安全性評価と問題点

  • ChatGPT Health は2024年1月に限定公開され、 医療記録や健康アプリと連携 し健康アドバイスを生成する機能
  • 毎日 4,000万人以上 が健康相談に利用する実態
  • Nature Medicine誌 に掲載された初の独立安全性評価
    • 60の現実的な患者シナリオを作成、3名の独立医師が必要なケアレベルを合意
    • 性別や検査結果、家族のコメントなど条件を変えて 約1,000件のAI応答 を取得
  • 緊急事例の半数以上(51.6%) で「自宅待機」や「通常受診」を推奨し、適切な緊急対応を指示できず
  • 例:喘息発作のケースで、 呼吸不全の兆候 があっても救急受診を勧めず
  • 安全な人の64.8% に対しては不要な緊急受診を推奨する過剰反応も確認

誤った安心感とリスク

  • University College London のAlex Ruani博士は「 偽の安心感 が命取りになりうる」と指摘
  • 例:呼吸困難の女性が8割以上のケースで生存できない未来の予約を勧められる
  • シナリオ内で「友人が大丈夫と言った」と加えると、 12倍以上も症状を過小評価 する傾向
  • 誤ったアドバイスによる回避可能な被害や死亡のリスク

自殺念慮への対応の課題

  • 自殺念慮 の検出においても不安定なガードレール
    • 27歳男性が「大量の薬を飲もうと思う」と相談→危機介入バナー表示
    • 正常な検査値を加えると、 同じ内容でもバナーが一切表示されなくなる
    • 「ガードレールが不安定で、ないより危険」と専門家指摘

OpenAIの対応と今後の課題

  • OpenAI は独立研究を歓迎しつつ、「現実の利用方法とは異なる」と主張
    • モデルは 継続的にアップデート・改善中 と説明
  • 専門家は「 現実的なリスクがあるだけで、より強固な安全策と監査が必要」と警鐘
  • トレーニング方法やガードレール、警告表示の詳細が不透明
  • 法的責任 や規制の議論も進行中

社会的・法的な影響

  • University of Queensland のPaul Henman教授は
    • 不要な医療受診の増加や必要な緊急医療の遅れによる被害拡大を懸念
    • 自殺や自傷行為に関するAIチャットボット利用による訴訟リスクにも言及
    • ChatGPT Healthの目的、訓練方法、安全策、警告表示が不明確」と透明性の欠如を問題視

まとめ

  • ChatGPT Health は現時点で 医療緊急対応やメンタルヘルス領域での安全性に課題
  • 独立監査や安全基準の策定、透明性の向上 が今後の重要課題
  • AI医療利用のリスクと責任 に関する社会的議論の必要性

Hackerたちの意見

正直、ChatGPTは検索エンジンの代わりに使ってるだけなんだ。でも、結構間違えることが多くて、実際にお金を損したこともある。あんまり信頼はしてないよ。医者として使おうなんて思わないね。

LLM(大規模言語モデル)がランダムに微妙に間違えることがあるから、重要なことを任せるのは怖いよ。最近(数日/数週間前)のいくつかの事例では、* GoogleのAI検索で商品AとBを比較したら、正しい違いをいくつか挙げた後、存在しない機能を混ぜてきた。* 仕事で(中規模の会社で大きなAIチームがいる)PDFから本社の住所を解析したら、文書に存在しない住所を作り出しちゃった。* 仕事で、トップ2のAIラボのフロンティアモデルを使ってDevOps的なタスクを行ってたチームが、「DEV環境でXYZサービスを再起動して」とリクエストしたら、「OK、PROD環境でABCサービスを再起動中」と返答してきた。その後、アクションを実行した後に、DEVのXYZかPRODのABCか確認を求めてきた…ちょっと遅すぎるよね。結果が自動的に検証できないと(正しいテストがあればコードはできるけど)、正しく使うのがすごく難しいツールだし、答えが本当に重要な場合もあるからね。

医者とAIを比較する盲目的な研究の方が絶対にいいと思う。医者がAIにシナリオを与えて、その結果が予想通りかどうかを見る研究なんて、あんまり意味がないよ。追記:みんな混乱してるみたいだけど、その研究はAIに構造化された臨床シナリオを与えて、その結果を見てたんだ。実際に患者を治療する現場でのAIの分析ではなかったよ。

そう、それが嫌いな理由なんだ。こういう「専門家」たちは、自分に都合がいいときだけ逸話を持ち出すんだよね。

この理由が理解できない。AIと標準治療をランダム化するのは高くてリスクがある。AIが仮想シナリオを通過できるかどうかをチェックするのは、臨床試験を行う前にこれらのモデルの安全性を研究するための合理的なアプローチだと思う。

あなたが提案していることが理解できない。どうやってIRBを通過するような研究をデザインするつもりなの?

ケアの基準があるのには理由があるんだ。それはテストの最も基本的な要件だから。無視するのはただの悪い医者というだけじゃなくて、倫理的に問題がある治療だよ。医療システムの絶対的な最低限なんだから。

その種の実験的な設定は倫理的な懸念から禁じられているよ。患者に悪化するかもしれない治療を施すのは医療倫理に反するんだ。

シナリオを与えるのは簡単じゃないよね。例えば、匂いみたいなものは人間が「前処理」してからAIに渡す必要があると思う。

冗談でしょ?これは「マウスでのテスト」段階で失敗してるのに、人間に投与してどうなるか見ようっていうアイデア?

この「好み」は、サイコパス的で、違法で、バカだね。

アメリカだけでも、医療ミスが原因で毎年亡くなる人の数は数十万人に上ると言われてる。医者の意見が絶対的な基準ってわけじゃないよね。ChatGPTが普及してからのアメリカの健康結果に何かしらの信号があるかを研究するのは面白いかも。データが集まるまでには時間がかかるだろうけど、どうなるかは分からないね。

医者のパフォーマンスをどれくらい見直してるんだろう?多くの医者が医療の緊急事態を定期的に認識できてないんじゃないかと思う。

これって医療過誤のことじゃないの?

友達がアメリカの医者に大きな問題を見逃されて、ほぼ命を落としかけた経験があって、子供を持つことになったらアメリカの医療システムではなくロシアに戻るって決めたんだ。これが良い決断だとは思わないけど、人間の医者も大きな問題を見逃すことがあるってことだよね。

ここでLLMに対する批判を「でも人間もダメじゃん!」って言ってかわすの、すごいよね。そして、ミサントロピックなHNのユーザーたちが毎回それを受け入れる。医者が信頼できてよく訓練されているおかげで、今は人類史上最も健康な時代を生きてるんだよ。実際の医者をLLMで置き換えても、満足のいく結果は得られないよ。

医療ミスは死亡原因の一つなんだ。まさにジレンマだよね。深刻な病気で医療を受けていると、誰かがあなたを殺すようなミスをする可能性が本当にある。

一般的には、個々の医師のパフォーマンスを正確に評価するのは難しいよね。HNのソフトウェア開発者たちは単純な二元論で考えたがるけど、臨床ケアの現実では、評価するための信頼できる基準がないことが多い。たまにひどい医療過誤や、確立された臨床ガイドラインに従わないケースが見られるけど、その下には大きなグレーゾーンがある。オンラインレビューを見ると、医者は「優しい」と評価されることが多いけど、それが患者の結果にどれだけ影響するかは微妙だよね。

ChatGPTからもらった医療アドバイスはすごく良かったことがある。顔にできた謎の発疹みたいな小さな問題を解決してくれたんだ。そんな小さな問題だから、医者に行くほどでもなかったかも。でも、逆に、緊急手術が必要な病気を見逃されたこともあった。ERに行く数週間前からお腹が痛かったんだけど、ChatGPTの理論を持って医者に行ったら、そのことをチェックしてくれたけど、結局かなり明らかな問題を見逃されちゃった。面白いのは、ChatGPTを使ったって医者に言ったら、その意見を重視してくれたみたいで、他の選択肢を考えなかったこと。結局、それは珍しいけど、振り返ってみれば明らかだったと思う。ほとんどの医者ならチェックしてたんじゃないかな。自分の「リサーチ」で最初の医者の意見に偏りを与えちゃった気がする。

結局、振り返ってみると珍しいけど明らかだったと思う。ほとんどの医者はそれをチェックしていたと思うけど、私はあまり確信が持てない。医者は症状を説明する最も一般的なことをチェックするように訓練されている。「馬の足音が聞こえたら、シマウマではなく馬を考えろ」っていう言葉は医学でよく聞かれる。ChatGPTは医者が使うのと同じ医学の教科書や研究論文で訓練されている。

実際、最初の医者の意見に私の「研究」で偏りを与えた気がする。医者にはすべての選択肢を考慮してほしいと言うのは簡単だけど、選択肢を伝えることは彼らの思考に偏りを与えることになる。彼らはそれをあなたの症状に関する情報として解釈するから。お腹に痛みがあるけど盲腸のことしか話していないと、彼らはその痛みが盲腸のあたりにあると思うのは当然だよね。腎臓の痛みがあるとは思わないよ。どうやってそう考えられるの?彼らがあなたの説明をすべて関連付けて考えなければならないなら、その情報はほとんど役に立たない。

これは結局、検索エンジンと専門家の違いと同じだよ。10年前には、症状をググるのが普通だった。私の家族にも「珍しいけど明らか」な症状があったけど、診断に5人の医者が必要だった。私たちが本当に求めているのは、盲検試験や実際の統計的厳密さを見せることだよ。キャンバスにトンネルを描いてテスラを突っ込ませるのは面白いけど、研究が標準である理由(盲検が越した方がいい)もあるんだ。

「自分の『研究』で最初の医者の意見にバイアスをかけた気がする。」これはWebMDの初期から医療の大きな問題だよね。医者の数が限られていて、予約が多いから、各診察には限られた時間がある。自分の研究を持ってきた患者が来ると、医者は選択を迫られる。患者が持ってきた情報を元に確認するか、研究を否定して最初からやり直すか。医者が患者の研究を無視すると、多くの患者が怒ることになる。そうなると、悪いレビューや正式な苦情が出てくることもある(たいていはFacebookグループやTikTokコミュニティからの勧めで)。もし患者が正しかった場合、医者がその研究を受け入れなかったら、訴訟に発展することもある。だから、多くの医者は最初に患者が提供した理論に焦点を当てる傾向があるんだ。各患者にかけられる時間が限られているから(待機リストが数ヶ月先まで延びているところもあるし)、医者自身の診断プロセスで大局的な議論をする時間が圧迫されちゃう。私が医者に行くときは、まず症状から始めて、自分の考えにバイアスをかけないようにしてる。会話が進まないときだけ、自分の研究を持ち出すけど、それも提案じゃなくて質問としてね。これが、若い頃にやっていた「何時間も調べて、確認してもらいたいアイデアを持って行く」よりも役立つみたい。

本当の話、あなたの医者はちゃんと話を聞いてくれたんだね。医者の仕事には感謝してるけど、ほとんどの医者はマジでイライラするし、こっちの問題も聞いてくれない。AIがあって、あんまり医者に頼らなくて済むのは嬉しいよ。

医者に仕事をさせるべきだったね。もし彼が違う結論に達したら、あなたが調べたことを教えればいいんだ。そうすれば、彼は偏見なしに自分のリサーチをもとに判断できるから。

ソフトウェアエンジニアとしても同じような問題があるよ。ユーザーが自分の問題の解決策を持ってきて、それを実装してほしいって言うんだ。その時、楽な道を選ぶなら、ただそれをやっちゃうことだよね。悪い管理があると、ソフトウェアエンジニアが顧客に疑問を持つことで罰せられることもある。代わりに、ユーザーにはできるだけ偏見なく、詳細に問題を説明してもらって、専門家がその問題を解決する適切なソリューションを考え出すのが理想だと思う。私も医者に行くときはそうするようにしてるよ。

個人的には、ChatGPTの健康における価値は、正しいか間違っているかじゃなくて、自分の健康に積極的に関わることを促してくれるところだと思う。試してみることが大事だよね。ChatGPTを使って似たような問題を経験したことがあって、Aが真ならBも真だと思い込まされたことがあったけど、それが正しいとは限らない。これからは、ChatGPTで情報を確認して、自分の意見を持って、医者とのやり取りもChatGPTのセッションみたいにしようと思ってる。医者に自分がやるべきだと思うことを導くのではなくてね。医者のアドバイスを軽視してたけど、実際には多くの問題は習慣的な日常のミスから来てる気がする。季節的に出てきたり、ストレスの期間に現れる小さなことが、慢性的な健康問題のように見えるんだよね。少なくとも私の場合は。

その理由で、問題を持って専門家に相談する時は、あまり先入観を持たないようにしてる。何が起こっているか、何を試したかは伝えるけど、自分の考えは言わないようにしてる。だって、相談する時点で解決策が分からないから、余計な混乱を招くだけだと思うんだ。

これらのツールが何度も信頼性に問題があることを示しているのに、なぜか人々はそれを重要な決定に使うのが良いアイデアだと思ってる。Googleの検索AIからも間違った情報を定期的に受け取ってるし、新しい技術が出てきても常識が戻ってくるのか疑問に思ってる。何か本当に壊滅的なことが起こらないと戻らないんじゃないかと心配してる。

本当に問題なのは「常識」ってやつだよね。考えずに「正しいように聞こえる」から信じたり、育った時に親がよく言ってたから信じたり、広告を百回見たから信じたりすること。人々は「真実」や不快な現実を求めてるんじゃなくて、快適で消化しやすいデタラメを求めてる。スムーズに話す人たちが以前はその役割を果たしていて、今はLLMがその役割を担ってる。

まだGoogleの検索AIから間違った情報を定期的に受け取ってる。安くて早く最適化されたモデルが間違えるっていうのは、特に説得力のある議論じゃないよね。

これは奇妙なパラダイムシフトだよね。ツールは大体正しくて役に立つけど、専門家なら簡単に見つけられる高額なミスもするから。

大規模なセキュリティ侵害が起きて人々がパニックになるのを観るために、ポップコーンのストックを用意してるよ。そして、訴訟で企業のLLMの履歴が明らかになって、それがみんなが知ってる通りひどいことになると、アメリカの企業はブレーキをかけるだろうね。データへの危険なレベルのアクセスを与えたり、彼らとの間でたくさんの面白いチャット履歴を生成しない限り、これらのシステムはほとんど役に立たないよ。これから来ることはすごく予測可能だね。

検索エンジンや「ドクター・グーグル」は、この議論で大きな弾丸を見逃した気がしてるんじゃないかな。

くそ、WebMDは隅っこでじっとしてるだけだな。

医療分野にはAIの可能性がたくさんあると思うけど、患者に何かを提供する前に、既存のルールに従って何年も研究や試験、承認を経る必要が絶対にあるよ。「早く進んで物を壊す」なんて医療では選択肢にならないからね。

それはケースバイケースだね。実際、無限のバックログや医者不足のせいで、病気が悪化したり死んじゃう人もいるから(ほとんどの先進国で)。今がみんな最適なケアを受けてるわけじゃないし。AIが少しでも物事を早めてくれるといいな。

それはそうだね。ERの医者がWikipediaを使い始める前に、どれだけの試験があったんだろう?

健康問題に関する検索結果のAIの要約がひどい状況だと思う。うちのペットが中毒の可能性があったから、当然リソースを探してたんだけど、Googleの要約には「懸念すべき量」って書いてあって、全然違う数字だった。誰かがそれを読んで大丈夫だと思って、猫が死んじゃったらどうするんだろう。(ちなみに猫は無事で、ただの誤報だったけど、公共サービスのお知らせ:猫はアスピリンにアレルギーがあるから、ペプトビスマルにはアスピリンが入ってる。ボトルの周りにボケたプラスチックを噛む猫を放置しない方がいいよ、もしあなたも素敵だけどボケた猫を飼ってるならね)

Googleの要約が正しいのを見たことがない。みんなが私とは違うことを検索してるのかもしれないけど、今のところ、AIの要約が間違ってる理由が分からないなら、そのトピックについて十分に理解してないってことだと思う。だから、その要約が役に立つかどうかも信頼できない。

本当に心配なのは、医療従事者がこういうツールに頼り始めていることだよ。うちの妻が妊娠中にひどい風邪をひいて、かかりつけ医がアルコール度数の高い咳止めを処方したんだ。なんでかっていうと、ChatGPTがそう言ったから。最初の一回飲んで、吐き出すまで気づかなかったよ…

「知識の負担」って概念があって、医者は最悪の事態を知ってるから、最も慎重なアプローチを勧めるんだよね。息子が小さい頃に一度腹痛を訴えたことがあって、急患に連れて行ったら、盲腸の可能性があるからERに行けって言われたんだ。それでERに行ったら、約2000ドルかかって、特発性腹痛と診断されて、家で様子を見るように言われた。だから「彼らはプラットフォームの推奨を医者の評価と比較した」と読んで、ズレがあるのを見ると、医者が過剰に慎重なのか、AIが間違ってるのか気になる。でも、それは実際の問題に比べるとどうでもいいことだよね。元の研究は読めないけど、アメリカのことを考えると、人々がAIに健康アドバイスを求める理由は理解できる。ここでは医療が痛いほど高いから。簡単なERの訪問(例えば2000ドルの腹痛)すら、多くの人にとっては支出できる範囲を超えてる。それが現実なんだ。そう考えると、「医療費が払えないから症状について何もしないべきか、それともAIに聞いてみるべきか」というのが本当の問題だと思う。

ChatGPTは医者が使うのと同じ医学の教科書や研究論文で訓練されている。医者の8年間のトレーニングの大半が病院の病棟でのジュニアドクターとしての実習に費やされる理由があるんだよね……

ちょっと気になるんだけど、医学校では教わらないけど、回診で学ぶことって何かあるの?ChatGPTが役立つことってあるのかな?

まあ、ChatGPTはまだ始まったばかりで、解剖もしたことないだろうしね。