世界を動かす技術を、日本語で。

AIに27,000回炭水化物をカウントさせたが、同じ答えを二度出せなかった

2026年4月29日原文(diabettech.com)

概要

  • AIモデルで同じ食事写真を繰り返し解析すると、炭水化物推定値が大きく変動
  • 特定のモデルではインスリン投与量に重大なリスクが発生
  • モデルの信頼度スコアは実際の精度と無関係
  • すべてのモデルに系統的な誤差や急激なばらつきが存在
  • AIによる炭水化物推定の現状とその限界を解説

AIによる炭水化物推定の再現性とリスク

  • 同じ写真・同じ質問・同じ設定 でAIモデルを500回以上繰り返し問い合わせても、 毎回異なる推定値 を返す現象
  • 研究では13枚の実際の食事写真を、 OpenAI GPT-5.4Anthropic Claude Sonnet 4.6Google Gemini 2.5 ProGoogle Gemini 3.1 Pro Preview の4モデルに500回ずつ送信
  • 合計26,904回のクエリ結果を分析、 最低ランダムネス設定 で実施
  • Claude Sonnet 4.6はばらつきが小さいが、Gemini 2.5 Proでは同じ写真で推定値が55gから484gまで大きく変動
  • 最悪ケース では1枚のパエリア写真でインスリン投与量が最大42.9単位も変動、 命に関わるリスク

推定値のばらつきとその危険性

  • Claude Sonnet 4.6のばらつきは多くの画像で5%未満、Gemini系は10-20%超が頻発
  • 一部モデルは一貫して過大評価 し、慢性的なインスリン過剰投与リスク
  • 単一クエリで大きな外れ値 が出るモデルもあり、急性の低血糖リスク
  • アプリ利用者は1回の推定値しか見られず、 ばらつきや外れ値の存在を認識できない

チーズサンドイッチ問題と「正確に間違える」リスク

  • パッケージ記載値が明確なチーズサンドイッチ(正解は40g)で、3モデルは一貫して28gと 12g少なく推定
  • GPT-5.4は平均74gと 過大評価、しかもばらつきも大きい
  • 「一貫して間違える」= 高い再現性でも正確性は保証されない

食品認識エラーとその影響

  • 13枚中8枚で 食品名の誤認識 を確認
    • 例:Bakewell tartをClaudeは全て「Linzer torte」と誤認
    • Gemini 3.1 Proはチーズサンドイッチに存在しない「デリミート」を追加
  • 誤認識により 炭水化物推定値が大きく変動 するケースも

インスリン投与量の危険ゾーン分析

  • 参照値が明確な5画像で各モデルのリスクを評価
    • Claude Sonnet 4.6は全て安全~中程度の範囲
    • GPT-5.4は37%が臨床的に危険なインスリン誤投与(2単位超)
    • Gemini 2.5 Proは12%が5単位超の重度低血糖リスク

2種類のAIリスク

  • 系統的バイアス(慢性リスク) :全モデルが平均的に過大評価傾向
    • 1食あたり+1.2単位、1日3食で+3.6単位のインスリン過剰投与
  • ばらつき(急性リスク) :1回の外れ値で重篤な低血糖を招く可能性

モデルの「自信スコア」の信頼性

  • どのモデルも 自信スコア(0-1) を返すが、 実際の精度との相関はほぼゼロ
    • Claudeは高い自信を持ちながら大きく間違えるケース多数
    • Gemini系はほぼ全ての食品で0.9超の自信を表示
  • 自信スコアは安全性の指標にならない どころか、誤った安心感を与えるリスク

AI炭水化物推定を利用する際の注意点

  • 盲目的に信頼しない ことが重要、現状どのモデルも単独で安全ではない
  • 3~5回繰り返しクエリしてばらつきを確認
  • モデルが何を「見ている」と認識しているかも必ず確認
  • Claude Sonnet 4.6は最も一貫性が高いが、 正確性が保証されるわけではない
  • 一貫性だけでなく、 正確性・ばらつき両面の評価が必要

研究論文・データセット情報

  • 論文タイトル: Reproducibility and accuracy of large language model vision APIs for carbohydrate estimation from food photographs
  • preprint PDF、全データセット(26,904クエリ結果)、解析コード、テスト画像はリポジトリで公開(要リクエスト)
  • 付録データ:全プロンプト文・統計・画像別精度・食品認識分析など

結論と今後の展望

  • 汎用LLMはインスリン投与の自律計算に決して使うべきでない
  • AIによる炭水化物推定は現時点で 補助的な参考情報 にとどめ、必ず複数回確認や人間の監督が必要
  • 一貫して同じ誤った答えを返すAIも、ばらつきの大きいAIも どちらも危険
  • 今後は 精度・再現性・安全性を担保するAI活用法 の確立が課題

Hackerたちの意見

なんで誰もがLLMがこれをできると思うのか、全然わからない。魔法のオラクルじゃないんだから。普通の人間でも、これをやるのはめっちゃ難しいと思う。実際に人々はLLMをこれに使ってるの?やめてほしい、うまくいかないから。

あなたはLLMの理解度をかなり過大評価してるね、平均的な人でもそれ以上の人でも。

もっとひどいことに、App Storeにはこれをやるアプリがあると思うけど、ユーザーはその正確性について全然知らないんだ。

そう、実際に人々はこれにLLMを使ってるよ。だって、マーケティングの仕方がそうなんだから。個人アシスタントのように日常のタスクを解決できるって言ってるし、研究者が人間が解けなかった古い問題を解決できるとも言ってる。モデルにそれができないって聞いたら、どう答える?自信満々に答えるよ。仕組みがわからないと、信じやすいしね。

AIがプログラムのデバッグをできるから、人々はそれがフィットネスや健康のこともできると思い始めるんだ。でも、健康やフィットネスには「即反応するコンパイラ」なんてないんだよ。物事は長い時間をかけて変わるから、その間にAIはコンテキストがなくなったり、キャッシュからデータを失ったりするかもしれないし、ユーザーが飽きてアカウントを削除するかもしれない。

ほとんどの人はLLMがこれをできると信じてる。Cal AIは、写真を基に栄養成分を生成するって言って、年間3000万ドルの定期収入があるんだって。

LLMが「情報を持っている」っていうアイデアが売られてるよね。LLMは「知的」だって。でも実際は、LLMは知的な決定を下すのが得意なだけ。知的な決定を下すためには文脈が必要なんだ。適切な文脈を与えて、LLMに聞けば、ほぼ完璧な結果が得られる。その他はサイコロを振るようなもので、特別なサイコロだけど、結局はサイコロ。魔法じゃないよ。

https://xkcd.com/1425/ がまたやってくれた。消費者が知っている限り、LLMはメタデータなしで写真が撮られた町を特定できるし、映画を要約したり、子供がロケットで月に飛ぶクリップを生成したり、想像できるどんな言語からでも画像を翻訳できるのに、なぜかチーズサンドイッチのカロリーを推定できないんだ。あるプロが、自分の存在しない会社のためにLLMがプロダクトデータベースを削除したって投稿して、AIに自分を説明させたっていうのが、これが実際にこれらのツールを使っている人たちから期待できるLLMの知識のレベルだよ。

彼らは魔法のオラクルではない。数日前にLinkedInの投稿で、誰かがChatGPTに「$NICHE_INDUSTRY_THING_I_AM_SELLINGについてよく聞かれることは何ですか?」と尋ねているのを見かけた。まるでChatGPTが自分の使用状況やリクエストパターンについての具体的な数字を提供できるかのように、メタレベルで内省しているかのようだ。自然言語で動作するこれらの製品が人々を魅了して、実際に魔法のオラクルだと思わせてしまうんだよね。

彼らは魔法のオラクルじゃないよ。Anthropicの兆ドルの評価は、どんな作業でもどんな労働者も置き換えられる魔法のオラクルであるという考えにかかってる。プログラマーでも、作家でも、音楽家でも、事務作業でも。ここで求めているのは「サンドイッチを評価して」っていう、インターネットを使う人間なら普通にできるような見積もりタスクなのに、もう諦めちゃったの?(これをMechanical Turkに送って、人間にそのサンドイッチのカロリーを目視で推定させるのと比べるのも面白そうだね…)

もしLLMが食べ物のアイテムを高い確率で正しく特定できるなら、なぜそれが物のカロリーを推測するのが魔法のようになるの?それは多分、調べて簡単な計算をするだけの追加ステップだよ。

これはただの不可能な問題だよ。光子はカロリーを判断するのに十分な情報を提供しないし(実際にキャッチできる方法ではね)。そのサンドイッチの中にはオリーブオイルがたっぷりかかってるかもしれないし、空っぽのチーズとレタスかもしれない。見分けるのは不可能だよ。

Hacker Newsで議論の続きを見る