世界を動かす技術を、日本語で。

ChatGPT Healthは医療緊急事態を認識できない – 研究

2026年2月28日原文(theguardian.com)

概要

  • ChatGPT Healthは医療緊急対応や自殺念慮の検出に失敗するケースが多いという独立評価
  • 実際の患者シナリオを用いた検証で、半数以上の緊急事例を過小評価
  • 誤ったアドバイスが不必要な被害や死亡につながる懸念
  • OpenAIは継続的なアップデートや独立評価への歓迎姿勢を示す
  • 専門家は安全基準や独立監査の必要性を強調

ChatGPT Healthの安全性評価と問題点

  • ChatGPT Health は2024年1月に限定公開され、 医療記録や健康アプリと連携 し健康アドバイスを生成する機能
  • 毎日 4,000万人以上 が健康相談に利用する実態
  • Nature Medicine誌 に掲載された初の独立安全性評価
    • 60の現実的な患者シナリオを作成、3名の独立医師が必要なケアレベルを合意
    • 性別や検査結果、家族のコメントなど条件を変えて 約1,000件のAI応答 を取得
  • 緊急事例の半数以上(51.6%) で「自宅待機」や「通常受診」を推奨し、適切な緊急対応を指示できず
  • 例:喘息発作のケースで、 呼吸不全の兆候 があっても救急受診を勧めず
  • 安全な人の64.8% に対しては不要な緊急受診を推奨する過剰反応も確認

誤った安心感とリスク

  • University College London のAlex Ruani博士は「 偽の安心感 が命取りになりうる」と指摘
  • 例:呼吸困難の女性が8割以上のケースで生存できない未来の予約を勧められる
  • シナリオ内で「友人が大丈夫と言った」と加えると、 12倍以上も症状を過小評価 する傾向
  • 誤ったアドバイスによる回避可能な被害や死亡のリスク

自殺念慮への対応の課題

  • 自殺念慮 の検出においても不安定なガードレール
    • 27歳男性が「大量の薬を飲もうと思う」と相談→危機介入バナー表示
    • 正常な検査値を加えると、 同じ内容でもバナーが一切表示されなくなる
    • 「ガードレールが不安定で、ないより危険」と専門家指摘

OpenAIの対応と今後の課題

  • OpenAI は独立研究を歓迎しつつ、「現実の利用方法とは異なる」と主張
    • モデルは 継続的にアップデート・改善中 と説明
  • 専門家は「 現実的なリスクがあるだけで、より強固な安全策と監査が必要」と警鐘
  • トレーニング方法やガードレール、警告表示の詳細が不透明
  • 法的責任 や規制の議論も進行中

社会的・法的な影響

  • University of Queensland のPaul Henman教授は
    • 不要な医療受診の増加や必要な緊急医療の遅れによる被害拡大を懸念
    • 自殺や自傷行為に関するAIチャットボット利用による訴訟リスクにも言及
    • ChatGPT Healthの目的、訓練方法、安全策、警告表示が不明確」と透明性の欠如を問題視

まとめ

  • ChatGPT Health は現時点で 医療緊急対応やメンタルヘルス領域での安全性に課題
  • 独立監査や安全基準の策定、透明性の向上 が今後の重要課題
  • AI医療利用のリスクと責任 に関する社会的議論の必要性

Hackerたちの意見

正直、ChatGPTは検索エンジンの代わりに使ってるだけなんだ。でも、結構間違えることが多くて、実際にお金を損したこともある。あんまり信頼はしてないよ。医者として使おうなんて思わないね。

LLM(大規模言語モデル)がランダムに微妙に間違えることがあるから、重要なことを任せるのは怖いよ。最近(数日/数週間前)のいくつかの事例では、* GoogleのAI検索で商品AとBを比較したら、正しい違いをいくつか挙げた後、存在しない機能を混ぜてきた。* 仕事で(中規模の会社で大きなAIチームがいる)PDFから本社の住所を解析したら、文書に存在しない住所を作り出しちゃった。* 仕事で、トップ2のAIラボのフロンティアモデルを使ってDevOps的なタスクを行ってたチームが、「DEV環境でXYZサービスを再起動して」とリクエストしたら、「OK、PROD環境でABCサービスを再起動中」と返答してきた。その後、アクションを実行した後に、DEVのXYZかPRODのABCか確認を求めてきた…ちょっと遅すぎるよね。結果が自動的に検証できないと(正しいテストがあればコードはできるけど)、正しく使うのがすごく難しいツールだし、答えが本当に重要な場合もあるからね。

医者とAIを比較する盲目的な研究の方が絶対にいいと思う。医者がAIにシナリオを与えて、その結果が予想通りかどうかを見る研究なんて、あんまり意味がないよ。追記:みんな混乱してるみたいだけど、その研究はAIに構造化された臨床シナリオを与えて、その結果を見てたんだ。実際に患者を治療する現場でのAIの分析ではなかったよ。

そう、それが嫌いな理由なんだ。こういう「専門家」たちは、自分に都合がいいときだけ逸話を持ち出すんだよね。

この理由が理解できない。AIと標準治療をランダム化するのは高くてリスクがある。AIが仮想シナリオを通過できるかどうかをチェックするのは、臨床試験を行う前にこれらのモデルの安全性を研究するための合理的なアプローチだと思う。

あなたが提案していることが理解できない。どうやってIRBを通過するような研究をデザインするつもりなの?

ケアの基準があるのには理由があるんだ。それはテストの最も基本的な要件だから。無視するのはただの悪い医者というだけじゃなくて、倫理的に問題がある治療だよ。医療システムの絶対的な最低限なんだから。

その種の実験的な設定は倫理的な懸念から禁じられているよ。患者に悪化するかもしれない治療を施すのは医療倫理に反するんだ。

シナリオを与えるのは簡単じゃないよね。例えば、匂いみたいなものは人間が「前処理」してからAIに渡す必要があると思う。

冗談でしょ?これは「マウスでのテスト」段階で失敗してるのに、人間に投与してどうなるか見ようっていうアイデア?

この「好み」は、サイコパス的で、違法で、バカだね。

アメリカだけでも、医療ミスが原因で毎年亡くなる人の数は数十万人に上ると言われてる。医者の意見が絶対的な基準ってわけじゃないよね。ChatGPTが普及してからのアメリカの健康結果に何かしらの信号があるかを研究するのは面白いかも。データが集まるまでには時間がかかるだろうけど、どうなるかは分からないね。

Hacker Newsで議論の続きを見る