世界を動かす技術を、日本語で。

OpenAIのo1は、トリアージ医による50-55%に対してER患者の67%を正しく診断しました

概要

  • Harvardの研究 でAIが救急医療現場の医師を診断精度で上回る
  • AIは 限られた情報下でのトリアージ で特に優位性を示す
  • 治療計画の立案 でもAIが医師を大きく上回る結果
  • ただしAIは 患者の表情や状態 など非テキスト情報は未評価
  • 医師の役割は依然重要 で、今後はAIと協働する新しい医療モデルが注目

救急医療現場でAIが医師を超える日

  • George Clooney(ER)やNoah Wyle(The Pitt) など、救急医師は長年人気のヒーロー像
  • Harvardの画期的研究 で、AIが高圧的な救急現場でのトリアージ診断で医師を上回る
  • Science誌 に発表された結果、AIは臨床推論の多くのベンチマークを超越
  • Bostonの病院救急部で76人の患者 に対し、AIと2人の医師が同じ電子カルテ情報を元に診断
  • AIは 67%の正確な診断率、医師は50~55%に留まる

AIの診断・治療計画能力

  • OpenAIのo1 reasoning model を用いたAI、詳細情報が増えると診断精度は82%に上昇
  • 専門医の精度(70~79%)と比較し、差は統計的有意ではないが優勢
  • 長期治療計画 (抗生剤投与計画や終末期ケア)でもAIは89%の高評価、医師は34%
  • AIは大規模な医師グループよりも優れた治療提案 を実現

AIが苦手な領域と今後の展望

  • AIはテキスト情報のみで診断、患者の表情や身体的サインは未評価
  • AIはセカンドオピニオン的役割 としての活用が現時点で現実的
  • Harvard Medical SchoolのArjun Manrai氏 「AIが医師を完全に置き換えるわけではない」
  • Boston Beth Israel DeaconessのAdam Rodman医師 「今後10年で、医師・患者・AIの三者連携モデルが主流に」

AIの実用化と課題

  • 米国医師の約5人に1人がAI診断を既に活用
  • 英国でも16%が日常的、15%が週1回以上AIを利用 (Royal College of Physicians調査)
  • 英国医師の懸念点:AIの誤診リスクと責任所在
  • AI医療企業への巨額投資が進む一方、エラー発生時の責任体制は未整備

AIと医師の協働の未来

  • University of EdinburghのEwen Harrison教授 「AIは臨床現場で有用なセカンドオピニオンツールになりつつある」
  • University of SheffieldのWei Xing助教授 「医師が無意識にAIに依存する傾向がある」
    • AIが苦手な患者層や高齢者・非英語話者への課題 も未解決
  • AIの安全性や一般利用の是非は証明されていない との指摘
  • 患者は依然として人間医師の判断やケアを求める傾向

Hackerたちの意見

自分と妻のためだけじゃなくて、犬の診断にもLLMを使ってるんだ。AIを使った獣医療には大きなチャンスがあると思う。特に、地域の獣医クリニックでケアや手術を行うために入札をするようなやつね。地元の獣医によって価格が10倍以上も違うことに気づいたよ。80歳の母と義母は、過剰請求する獣医に何度も騙されてて、犬が彼女たちの生活の大きな部分を占めてるから、すごくプレッシャーに弱いんだ。

こういう研究を信じるのはちょっと躊躇するな。これらのベンチマークを間違えるのは簡単だから。例えば、最近の論文ではAIがレントゲンの解釈で放射線科医に勝ったって言ってるけど、AIはレントゲンにすらアクセスできなかったんだよね。https://arxiv.org/pdf/2603.21687 (意図的におかしくされたわけじゃない「一般的な胸部レントゲン理解のための大規模視覚質問応答ベンチマーク」上での話)。実際、レントゲンを解釈する時、人間の放射線科医はちゃんとレントゲンを見てる。この記事が話してる文脈では、人間の医者はERの患者を診断するためにメモだけを見てるわけじゃないよ。必要のないタスクをやらせて、経験も訓練もないのに「AIが彼らを上回った」って言うのはどうかと思う。もしメモが変なサイドチャネルで答えを漏らしてないとしても、それは驚くべきことじゃない。だから、この研究が絶対に間違ってるとか、意図的に誤解を招くものだとは思わないけど、ここから強い結論を引き出すのは避けた方がいいと思う。

この特定の研究については同意するけど、医者がAIモデルよりも長期的に優れているとは思えないんだ。結局、医学は知識、経験、知性(多分「パターン認識」)のことだから、最良のAIモデル(特に医療分野に特化したもの)が大多数の人間(つまり医者)を大きく上回ると考えるのが自然だと思う。ソフトウェアエンジニアに対してそういう前提を持っているなら、この分野でも同じように考えるべきだし、現実的に見て、ここ数ヶ月で医者に会ったとき(ERにも2回行ったけど)、毎回ChatGPTを使ってたのには驚いたよ。だから、純粋に興味があるんだけど、トップの医療AIが優れた人間の医者のパフォーマンスに匹敵したり超えたりできないと信じる具体的な能力(または能力の組み合わせ)は何だと思う?責任や倫理は置いといて、純粋に客観的に考えてみよう。

ステロイドの幻覚、すごいね。信じるために要約を読まなきゃいけなかったよ。「最も極端なケースでは、我々のモデルは画像にアクセスできないのに、標準的な胸部X線の質問応答ベンチマークでトップのランクを達成した。」

こういう実験は、誰がやっているか、誰が資金提供しているかによってバイアスがかかるのは必然だよ。実験は特定の理由で資金提供されていて、望ましい方向に物語を進めるためなんだ。こういう敏感な分野では、政府が資金提供する研究が必要な理由だと思う。

現在のモデルが「ノー」と言うことができない、あるいはほとんどの失敗モードを認識できないことがさらに心配だよ。「このX線に潜在的な癌はありますか?」って聞くと、モデルが「おそらく」と答えるかもしれないけど、それはモデルが常にユーザーに同意して、常に答えを提供するように訓練されているからなんだ。あ、忘れないでほしいのは、「このX線に潜在的な癌はありますか?」と「このX線に潜在的な問題はありますか?」は全く異なるプロンプトで、全然違う答えが返ってくるってこと。

AIは文脈の解釈には役立つと思うけど、決定を下すのは無理だね。患者データのバックグラウンドで動いて、「診断にXが見えますが、Yは除外しましたか?理由はa、b、cです。」って医者にメッセージを送る感じがいいと思う。私のコーディングエージェントも同じように、見逃したことをレビュー中に教えてくれるといいな。最初のパスで生成されたものを全部見直させられるよりはね。

ここでの大きなポイントは、医者があなたの持っているものを50%の確率で見逃すってことだと思う。

こういうことがあるのは変だし、新しい研究だけど、そういうX線モデルはすでに活発に使われてるよ。ただ、唯一の最終診断として使われるわけじゃない。むしろ、ピアレビューや優先順位付けのようなもので、「この画像は今日最も重要そうだから、まずこれをチェックして」って感じだね。

医者は人間の認知バイアスを持ってるから、見落とすことがあるのはあり得ると思う。人は自分が一番慣れてるパターンに固執しがちだしね。

記事を読んでみると、医者とLLMの間のギャップは、両方がフルケースノートを読むことを許可されたら実際になくなった(統計的な有意性の点で)。見出しは看護師のメモからの推測診断に基づいた数字を引用してる。私の予想では、LLMは選ばれたケーススタディからの推測を医者よりも喜んで受け入れたんじゃないかな。

リンクされた論文はまだ読み終わってないけど、X線を見せないと結果が幻想的なものになるという仮定に興味がある。これは非常に合理的な結論のように思えるけど、もう一つの視点をスキップしてるね。X線は結果を less accurate にするのかな?

Hacker Newsで議論の続きを見る