世界を動かす技術を、日本語で。

オンタリオ州の監査官、医師のAIノートテイカーが基本的な事実をしばしば誤ることを発見

2026年5月15日原文(theregister.com)

概要

  • Ontario州 の監査で、AI Scribeシステムの精度に重大な問題が発覚
  • 20社中60%が患者ノートで薬剤情報を取り違え
  • 多くのシステムで事実無根の情報や誤った治療提案が挿入
  • 精度やセキュリティの評価配点が極端に低い
  • 医師の手動確認推奨も、強制機能は未導入

オンタリオ州AI Scribeシステム監査の問題点

  • Ontario州監査局 によるAI Scribeシステム監査結果
  • 20社の認定ベンダーシステムを対象に調査
  • AI生成ノート が重要な医療情報を見落とし、誤情報や“幻覚”内容を挿入
  • 9社のシステムが録音内容にない治療提案や情報を記載
  • 12社が誤った薬剤情報を患者ノートに記載
  • 17社が患者の精神状態に関する重要情報を見落とし
  • 6社は精神疾患情報を完全または部分的に漏らす
  • 重大な医療事故リスクの指摘

評価プロセスと配点の問題

  • システム評価時の配点バランスが極端に不適切
    • 地元拠点有無 が評価点の30%を占める
    • 医療ノートの正確性 はわずか4%
    • バイアス制御リスク・プライバシー評価 は各2%
    • SOC 2 Type 2準拠 も4%のみ
  • 精度・セキュリティ・バイアス対策の比重が極端に低い評価制度
  • 不適切な配点が不正確・バイアスのあるAI選定を招く」との指摘

医療現場への影響と今後の課題

  • OntarioMD は医師にAIノートの手動確認を推奨
  • しかし、 強制的な確認機能や証明手段は未導入
  • 5,000人以上の医師が既にAI Scribeを利用
  • 現時点で患者被害報告はないが、潜在的リスクの懸念
  • 今後の制度見直しと評価基準の抜本的改革が必要

Hackerたちの意見

職場で会議用にLLMノートテイカーを使ってるんだけど、最近ちょっと介入しなきゃいけなかったんだ。CIOがベンダーに対してすごく怒ってて、約束したことを全然やってなかったから。彼はその「約束」がされた会議にはいなかったけど、私はいたんだよね。実際、彼らは何も約束してなくて、LLMが書いた詳細な要約よりも、話の内容はずっと複雑だった。別のケースでも、議論があまり直線的じゃないときに、LLMが的外れになるのを見たことがある。たとえば、SOCチームと最近のアラートやインシデントについてやり取りしているときとかね。大体の内容は合ってるけど、正確さを求めると、ほんとに的外れになる。病院での初診の時にLLMがいいノートを取るのは見えるけど、主な問題、体重、身長、最近の変化なんかをまとめるのはいいとしても、医者との詳細で技術的なやり取りには全然信用できないな。病院は記録を変更したくないだろうし、トランスクリプトだけに頼ると思うけど、私にはわからないことだしね…

私の経験では、トランスクリプションはかなりうまくいくし、そういう場合にはトランスクリプトを真実の基準として扱うべきだと思う。

コンプライアンスの理由から、病院は記録を変更したくないと思うだろうし、トランスクリプトだけを使うべきだと思うけど、私が何を知ってるっていうんだ…私もこれには困惑してる。なんでトランスクリプトを生成して終わりにしないの?もし特に長いトランスクリプトが何度も参照されるなら、人間が必要だと思うところで横に要約を付け加えればいいんじゃないかな。少なくとも私の経験では、こういうやり取りには最初からフィルタリングできる余計なデータがあまりないことが多い。詳細はかなり重要なんだよね!

最近、母の日のメッセージを残したんだ。普通の内容で、「電話に出られなくてごめんね、今夜か明日でもいいから、都合のいい時にかけてね、話せるのを楽しみにしてるよ、愛してる、じゃね」って感じで。そしたら、その夜に母から電話がかかってきて、少し話した後に、ちょっと戸惑った感じで「ねぇ…何か伝えたいことあった?」って言われて、完全に困惑しちゃった。「えっと、別にないと思うけど…?」って返したら、母が私のメッセージについての通知を説明してくれたんだ。どうやら、私のボイスメールが75%は無意味な人間のやり取り(ほとんどのボイスメールがそうだよね)で構成されてるのに、それが堅苦しくてビジネスっぽい言葉に変換されて、ちょっと不気味なトーンになってたらしい。母の日の挨拶をしたいっていうメッセージの中の一つ一つの言葉に、過剰に意味を持たせてしまって、すぐに連絡を取りたいっていうのも(母の日の挨拶のために)とか、そういうのが強調されてたみたい。さらに、電話の情報密度を大げさにして、私が何か重要で緊急なことを伝えようとしてるみたいに聞こえたらしくて、母はそれを読んでちょっと心配になったみたい。私としては、ただ母を祝いたかっただけなのに、こんな結果になってちょっとイラっとしたよ。今や、すべてに中途半端なLLMの要約が必要みたいだね。

私が受けたすべての医者の訪問では、記録の修正ができたよ。ほぼ半分の確率で意味のある間違いがあったから。要約はすぐに確認して、できるだけ早く医者に連絡してね。彼らは通常、自分で修正できるし、みんながその出来事を覚えているうちにやった方がいいよ。

評価されたAIスクリプトシステムの60%が患者のノートで処方薬を混同していると監査人は言っている。私が見た限りでは、比較のための人間のミス率は言及されていないね。たくさんの医療記録を見てきたけど、60%って普通に聞こえるよ、笑。

でも、誰が責任を持つかは別の話だよね。(もし標準的なAI導入前のノートテイキングで60%のエラー率があるなら、それが多くの死や怪我に繋がらないのはどういうこと?少なくとも、どこかの国の医療システムはそれを見逃すべきじゃないと思う。)

これはあまり人気のない意見だけど、「AIはXが苦手だけど人間も同じ」ってのは有効だと思うし、特に医療分野では勝てるところは勝っていくべきだよね。初期の正確性の問題は、こうした技術が成熟するにつれてどんどん少なくなるのは明らかだよ。ただ、今の段階で「見て、悪い」っていうポイントで正確性に焦点を当てるのは、本当の危険を見逃してる。医療ノートテイカーはお金のためにハイジャックされる可能性が非常に高いし、これは今注目すべき問題だよ。彼らは1兆ドルの産業へのリアルタイムフィードを提供してるんだから。ちょっと考えてみてほしい。保険会社はそのフィードをリアルタイムで利用して、もっとお金を絞り取ろうとするだろうし、製薬会社もそのデータを悪用したいと思うだろう。病院もそのフィードを利用して、医者からもっと搾り取ったり、各診療の請求コードを増やそうとするだろう。患者を助けるためにそのフィードを利用しようとするところはほとんどないと思う。私はこうしたシステムには賛成だし、過去にそれを構築するのに関わったこともあるけど、明らかにビジネスの興味が関わってくることについては、もっと大声で叫ぶべきだと思うよ。短期的な正確性の問題じゃなくてね。

60%は異常に高いし、人間のミス率とは全く違うパフォーマンスだよ。どのチャートを見てるの?

人間でも60%のエラー率があったとしても、エラーの種類は全然違うよ。人間はタイプミスをしたり、何かを忘れたり、時にはちょっとした細かいことを思い違えたりすることはあるけど、AIが無から幻覚を見て間違えるのとは全然違う。AIは人間が絶対にしないような間違いをするから、すごく混乱させるし、簡単に見つけられることもあれば、逆に人間が全く疑問に思わないようなことを言ったりするから、なぜAIがそんなに間違ったことを自信満々に言うのか理解できない。

60%って普通の人間のミス率なの?マジで言ってるの?

それは突飛な主張だね。証拠を見せた方がいいよ。私もいくつかの医療チャートを見たけど、エラー率はそんなに高くないよ。通常、すべてが口述されて転記されるから、かなり成熟してて正確な技術だし。

Hacker Newsで議論の続きを見る