世界を動かす技術を、日本語で。

オンタリオ州の監査官、医師のAIノートテイカーが基本的な事実をしばしば誤ることを発見

概要

  • Ontario州 の監査で、AI Scribeシステムの精度に重大な問題が発覚
  • 20社中60%が患者ノートで薬剤情報を取り違え
  • 多くのシステムで事実無根の情報や誤った治療提案が挿入
  • 精度やセキュリティの評価配点が極端に低い
  • 医師の手動確認推奨も、強制機能は未導入

オンタリオ州AI Scribeシステム監査の問題点

  • Ontario州監査局 によるAI Scribeシステム監査結果
  • 20社の認定ベンダーシステムを対象に調査
  • AI生成ノート が重要な医療情報を見落とし、誤情報や“幻覚”内容を挿入
  • 9社のシステムが録音内容にない治療提案や情報を記載
  • 12社が誤った薬剤情報を患者ノートに記載
  • 17社が患者の精神状態に関する重要情報を見落とし
  • 6社は精神疾患情報を完全または部分的に漏らす
  • 重大な医療事故リスクの指摘

評価プロセスと配点の問題

  • システム評価時の配点バランスが極端に不適切
    • 地元拠点有無 が評価点の30%を占める
    • 医療ノートの正確性 はわずか4%
    • バイアス制御リスク・プライバシー評価 は各2%
    • SOC 2 Type 2準拠 も4%のみ
  • 精度・セキュリティ・バイアス対策の比重が極端に低い評価制度
  • 不適切な配点が不正確・バイアスのあるAI選定を招く」との指摘

医療現場への影響と今後の課題

  • OntarioMD は医師にAIノートの手動確認を推奨
  • しかし、 強制的な確認機能や証明手段は未導入
  • 5,000人以上の医師が既にAI Scribeを利用
  • 現時点で患者被害報告はないが、潜在的リスクの懸念
  • 今後の制度見直しと評価基準の抜本的改革が必要

Hackerたちの意見

職場で会議用にLLMノートテイカーを使ってるんだけど、最近ちょっと介入しなきゃいけなかったんだ。CIOがベンダーに対してすごく怒ってて、約束したことを全然やってなかったから。彼はその「約束」がされた会議にはいなかったけど、私はいたんだよね。実際、彼らは何も約束してなくて、LLMが書いた詳細な要約よりも、話の内容はずっと複雑だった。別のケースでも、議論があまり直線的じゃないときに、LLMが的外れになるのを見たことがある。たとえば、SOCチームと最近のアラートやインシデントについてやり取りしているときとかね。大体の内容は合ってるけど、正確さを求めると、ほんとに的外れになる。病院での初診の時にLLMがいいノートを取るのは見えるけど、主な問題、体重、身長、最近の変化なんかをまとめるのはいいとしても、医者との詳細で技術的なやり取りには全然信用できないな。病院は記録を変更したくないだろうし、トランスクリプトだけに頼ると思うけど、私にはわからないことだしね…

私の経験では、トランスクリプションはかなりうまくいくし、そういう場合にはトランスクリプトを真実の基準として扱うべきだと思う。

コンプライアンスの理由から、病院は記録を変更したくないと思うだろうし、トランスクリプトだけを使うべきだと思うけど、私が何を知ってるっていうんだ…私もこれには困惑してる。なんでトランスクリプトを生成して終わりにしないの?もし特に長いトランスクリプトが何度も参照されるなら、人間が必要だと思うところで横に要約を付け加えればいいんじゃないかな。少なくとも私の経験では、こういうやり取りには最初からフィルタリングできる余計なデータがあまりないことが多い。詳細はかなり重要なんだよね!

最近、母の日のメッセージを残したんだ。普通の内容で、「電話に出られなくてごめんね、今夜か明日でもいいから、都合のいい時にかけてね、話せるのを楽しみにしてるよ、愛してる、じゃね」って感じで。そしたら、その夜に母から電話がかかってきて、少し話した後に、ちょっと戸惑った感じで「ねぇ…何か伝えたいことあった?」って言われて、完全に困惑しちゃった。「えっと、別にないと思うけど…?」って返したら、母が私のメッセージについての通知を説明してくれたんだ。どうやら、私のボイスメールが75%は無意味な人間のやり取り(ほとんどのボイスメールがそうだよね)で構成されてるのに、それが堅苦しくてビジネスっぽい言葉に変換されて、ちょっと不気味なトーンになってたらしい。母の日の挨拶をしたいっていうメッセージの中の一つ一つの言葉に、過剰に意味を持たせてしまって、すぐに連絡を取りたいっていうのも(母の日の挨拶のために)とか、そういうのが強調されてたみたい。さらに、電話の情報密度を大げさにして、私が何か重要で緊急なことを伝えようとしてるみたいに聞こえたらしくて、母はそれを読んでちょっと心配になったみたい。私としては、ただ母を祝いたかっただけなのに、こんな結果になってちょっとイラっとしたよ。今や、すべてに中途半端なLLMの要約が必要みたいだね。

私が受けたすべての医者の訪問では、記録の修正ができたよ。ほぼ半分の確率で意味のある間違いがあったから。要約はすぐに確認して、できるだけ早く医者に連絡してね。彼らは通常、自分で修正できるし、みんながその出来事を覚えているうちにやった方がいいよ。

評価されたAIスクリプトシステムの60%が患者のノートで処方薬を混同していると監査人は言っている。私が見た限りでは、比較のための人間のミス率は言及されていないね。たくさんの医療記録を見てきたけど、60%って普通に聞こえるよ、笑。

でも、誰が責任を持つかは別の話だよね。(もし標準的なAI導入前のノートテイキングで60%のエラー率があるなら、それが多くの死や怪我に繋がらないのはどういうこと?少なくとも、どこかの国の医療システムはそれを見逃すべきじゃないと思う。)

これはあまり人気のない意見だけど、「AIはXが苦手だけど人間も同じ」ってのは有効だと思うし、特に医療分野では勝てるところは勝っていくべきだよね。初期の正確性の問題は、こうした技術が成熟するにつれてどんどん少なくなるのは明らかだよ。ただ、今の段階で「見て、悪い」っていうポイントで正確性に焦点を当てるのは、本当の危険を見逃してる。医療ノートテイカーはお金のためにハイジャックされる可能性が非常に高いし、これは今注目すべき問題だよ。彼らは1兆ドルの産業へのリアルタイムフィードを提供してるんだから。ちょっと考えてみてほしい。保険会社はそのフィードをリアルタイムで利用して、もっとお金を絞り取ろうとするだろうし、製薬会社もそのデータを悪用したいと思うだろう。病院もそのフィードを利用して、医者からもっと搾り取ったり、各診療の請求コードを増やそうとするだろう。患者を助けるためにそのフィードを利用しようとするところはほとんどないと思う。私はこうしたシステムには賛成だし、過去にそれを構築するのに関わったこともあるけど、明らかにビジネスの興味が関わってくることについては、もっと大声で叫ぶべきだと思うよ。短期的な正確性の問題じゃなくてね。

60%は異常に高いし、人間のミス率とは全く違うパフォーマンスだよ。どのチャートを見てるの?

人間でも60%のエラー率があったとしても、エラーの種類は全然違うよ。人間はタイプミスをしたり、何かを忘れたり、時にはちょっとした細かいことを思い違えたりすることはあるけど、AIが無から幻覚を見て間違えるのとは全然違う。AIは人間が絶対にしないような間違いをするから、すごく混乱させるし、簡単に見つけられることもあれば、逆に人間が全く疑問に思わないようなことを言ったりするから、なぜAIがそんなに間違ったことを自信満々に言うのか理解できない。

60%って普通の人間のミス率なの?マジで言ってるの?

それは突飛な主張だね。証拠を見せた方がいいよ。私もいくつかの医療チャートを見たけど、エラー率はそんなに高くないよ。通常、すべてが口述されて転記されるから、かなり成熟してて正確な技術だし。

職場で使ってるAIノートテイカーは会議を録音する機能もあって、会議のノートにはタイムスタンプリンクが付いてるから、録音を直接確認できるんだ。HIPAA環境ではこういう解決策はもっと複雑だろうけど、医療のような重要なことにはこういうのが必要だよね。

AIベースのユーザー体験を設計する際、私はこれを「出所」と呼んでいる。信頼性、信頼、コンプライアンスなどの重要な側面だよね。もしソフトウェアシステムがこういうLLMの出力を含んでいて、その出力の出所を人間が評価・検証できるようにしていないなら、それはせいぜい悪いユーザー体験で、最悪の場合は危険なものになる。

そうだね、君が言ってることは次のどちらかを必要とするよ: - 誰かが全てのメモを聞いて確認する(時間も人手もかかる) - 出席者が記憶を頼りにメモをチェックする(メモを取らないとエラーが出やすい) - 出席者が自分のメモと照らし合わせる(AIのノートテイカーの意味がなくなる) 実際には、正確さが重要な文脈ではAIの使用はどんな形でも受け入れられないけど、それを認める人はなかなかいないよね。

それは「ノートテイカー」って感じじゃなくて、音声サンプルの検索エンジンみたいだね。正確さを求めるなら、全部聞かなきゃダメだよ。

現在のAI技術の未来については、一般的に悲観的から楽観的に移行してきたけど、基本的な事実の不正確さが続くのはやっぱり気になる。たとえば、Claude Opusを使ってフレーバープロファイルや好みに基づいてレシピを作るのは魔法のようだけど、テーブルスプーンとティースプーンの変換が正確にできない瞬間が来ると、ちょっとガッカリする。映画の中で、キャラクターがほぼ正しく行動してるけど、何かが少しおかしいって感じで、結局ゾンビだったって展開に似てる。このノートテイキングの例も似たような感じ。すごく印象的な方法でほぼ機能してるのに、重要な詳細で失敗する。AIができると言われていることを実際にやるには、そんなことはあってはならないと思う。こうした基本的な失敗が続く限り、実際に知能を得るための正しい道には進んでいないって確信が深まるよ。モデルが進化しても、こうした問題が解決されないのは明らかだね。

実際には、本当の知能を達成するための正しい道を歩んでいるわけではないんだ。本当の知能っていうのは、知らないことがあったら「わからない」って言ったり、助けを求めたり、あるいは助けを拒否することも含まれるんだけど、その裏には「バカに見られたくない」っていう気持ちがある。モデルは、自分の結果に自信がないときにはこういうことができるはずなんだけど、実際にはそうしてない。これが計算的に難しいからなのか、あるいはそれを使う企業の評判に悪影響を与えるからなのかはわからないけど。

自分が賛成しないプロセスに対して解決策を提供するのは嫌なんだけど、もしかしたらファジーツールも、私たちが必要とするのと同じ理由で古いスタイルの決定論的ツールが必要かもしれない。だから、LLMが4chanやポッドキャスト、ひどい料理本から見つけた似たような単語の統計的な一致を探して数学や論理の質問に答えようとする代わりに、必要なときには計算機を使えばいいんじゃないかな。

その通りだね。業界があまり話したがらない能力と信頼性のギャップがあるよね。AI業界は能力と信頼性が根本的に異なる特性であることを常に見過ごしているように感じる。私たちは「正確」と「信頼性」を同じ意味で使いがちだけど、実際は違うことを表してる。モデルがベンチマークをクリアしても(能力/正確性)、実際の運用では負担になることもあるからね。最近のMETRのリリースに対する反応を見てみて。改善された能力を示してるけど、あまり話されないのは、彼らの成功率が50%であること(さらにあまり話されない80%の成功率の二次的な測定は、タスクの時間的な視野が drastically lower なんだ)。私は企業向けにAIシステムを実装してるけど、80%の信頼性(ましてや50%)でOKなところは知らないよ。

彼らは、医師や看護師、その他の医療専門家のためにオンタリオ州保健省が始めたAI Scribeプログラムについて具体的に言及している。省がどんな質のソフトウェアを推奨するのか気になるな(たぶん主にSOCみたいな資格)。これは承認されたベンダーのリストらしいよ。https://www.supplyontario.ca/vor/software/tender-20123-artif...

うん、最近私も同じことがあったよ。ランナーズニーと診断されたんだけど、AIの要約では骨粗しょう症と診断されて、股関節の痛みや歩行困難があるって言われた。でも、そんなことは一言も言ってないし、暗示もされてなかった。トランスクリプトを確認して!常に、特にLLMのトランスクリプターには注意が必要だよ。よく存在しない症状を含めたり、一般的な診断を言ったりするから。間違ってると、後々のケアや費用に大きく影響するから、修正してもらった方がいいよ。私の経験上、非常にシンプルで一般的なことを除けば、私が受けた「AI」要約の約50%はどこかで間違ってた。存在しない症状を主張したり、今回はもっと深刻な虚偽を言われたりもした。LLMは普通の音声認識ソフトじゃないから、そう扱うべきじゃないよ。全く存在しない文を挿入することもあるし、特に医療記録では絶対にダメだよ。

実際、ズームのLLM要約が誰かの発言を誤って別の人に帰属させたことで、深刻な問題が起きたのを見たことがあるよ。会議に出られなかった別の人がその要約を読んで、大きな議論になったんだ。そのトピックはその人にとって敏感な問題だったから、会社内のongoing debateのせいでね。会議に出た全員がそれは間違いだと確認したけど、偶然のタイミングが彼に受け入れがたいものにしてしまった。LLMの要約が、その人の懸念を正当化するように見せてしまったから。ドラマはヒートアップして、経営陣が独立した検証なしに生成された出力を信じないという方針を作るまでになったよ。少なくとも、教訓にはなったみたいだね。

リンクされたレポートはほとんど役に立たないね。エラー率やサンプルサイズについて何も言ってないから、20のシステムのうち9が「情報を捏造して患者の治療計画に提案をした」ってのが、10回中10回なのか、千回中1回なのかは謎だよ。もしシステムのエラー率が高いと仮定するなら、なんで採用されてるんだろう。テストが非常に簡単にできるように見えるから、医者や病院、政府が騙されて買う理由がわからないよ。

最近の会議に参加する人は、こう言った方がいいよね。「お知らせ:この会議でAIによって解釈されたコメントは、正確でない場合があります。」私は毎回の会議でこれを言ってる。

お知らせ:この会議の新しいAI正確転写機能が大好き!

このLLMの要約ってどうやって機能するの?生の波形データをモデルに渡して翻訳するの?それとも、従来の音声認識アルゴリズムを使ってその部分を処理してから、結果を「修正」して見た目を整えてるの?質の良い出力ならあまり問題ないかもしれないけど、質が悪いと全然違うことになるよね。後で問題が起こるのは間違いないと思う。

AIってほんとに不正確で、それを正しいって主張し続けるよね。