世界を動かす技術を、日本語で。

センサーデータを超えて:ウェアラブルからの行動データの基盤モデル

概要

本論文は、 ウェアラブルデバイス から得られる 行動信号 を活用した 基盤モデル の開発について述べる。 162,000人・25億時間分の 大規模データ を用いてモデルを構築。 57種の健康関連タスクで 高い性能 を実証。 特に 睡眠予測 などの行動駆動型タスクで優位性を示す。 センサーデータと組み合わせることでさらなる精度向上を確認。

ウェアラブルデータを活用した基盤モデルの開発

  • ウェアラブルデバイス が記録する 生理・行動信号 の活用
  • 行動データは、 生理学的に意味のある時間スケール・量 と整合しやすい特性
  • 既存の基盤モデルは 低レベルセンサーデータ への適用が中心
  • 行動信号に特化した 基盤モデル の必要性

大規模データセットと最適化手法

  • 162,000人、 25億時間 分のウェアラブルデータを収集
  • アーキテクチャトークナイゼーション戦略 を体系的に最適化
  • 特有のデータセット構造に対応した設計

多様な健康タスクでの評価

  • 57種類 の健康関連タスクを用いた性能評価
    • 個人レベルの分類
    • 時間変化する健康状態の予測
  • 現実世界 での多様な応用可能性を実証

行動駆動タスクでの優位性

  • 睡眠予測 など、行動中心のタスクで特に高い精度
  • 生データ表現 と組み合わせることでさらなる性能向上

基盤モデル設計の意義と今後の展望

  • ウェアラブルデバイス に合わせたモデル設計の重要性を強調
  • 新たな 健康アプリケーション の可能性を提示

論文情報・発表状況

  • ICML 2025採択論文
  • 分野: 機械学習(Machine Learning)人工知能(Artificial Intelligence)
  • 著者: Joseph Futoma
  • arXiv:2507.00191 [cs.LG]
  • DOI: https://doi.org/10.48550/arXiv.2507.00191

Hackerたちの意見

2018年に、初期のウェアラブルファンデーションモデルの開発に携わったんだ。この2025年のAppleの論文は、より高い抽象レベルに進化してるよ。生のセンサーデータ(PPGや加速度計)でトレーニングするのではなく、そのデータから得られた行動バイオマーカーの時系列でトレーニングしてるんだ(例えば、HRVや安静時心拍数など)。いろんな病状の検出精度が高いことがわかってるよ:糖尿病(83%)、心不全(90%)、睡眠時無呼吸(85%)とか。

データサイエンスに関しては、ジム・シモンズのアドバイスを思い出すな。「まずはソートして、それから回帰しろ」ってやつ。

「ファンデーションモデル」ってもう専門用語になってるのかな?

保険会社や健康保険会社は、この研究とその応用にめっちゃ興味があるんじゃないかな。

83%の「精度」って何?予測された糖尿病のケースの83%が実際に糖尿病なの?それとも、糖尿病の人の83%がそう診断されたの?精度と再現率の問題だね。一方を改善するためには、もう一方を犠牲にしなきゃいけないこともある。1つの数字にまとめるのは難しいよ。

自分のデータでこれを動かす方法はあるのかな?何年もApple Watchを使ってるから、もっと活用できたらいいな。

まだだね。この研究はあくまで研究用だから。彼らの以前の研究のいくつかは製品機能に組み込まれてるよ。例えば、Apple WatchのVO2Max(心肺フィットネス)は2023年に発表された深層ニューラルネットワークに基づいてるんだ。

誰か、重みの公開やAPIのリリースを見た人いる?

論文の中で、研究参加者との同意条件のために重みを公開できないって言ってるよ(これはAppleの心臓と運動の研究からのもの)。

医療技術に関わってるからこれが大好きなんだけど、大きな問題はオープンな重みやデータがないことだね。自分のAppleのXMLデータをエクスポートして使ったり処理したりできるけど、アプリを作ってユーザーからAppleのXMLデータを要求するとなると、データセキュリティポリシーや匿名化の要件に関わる臨床研究の領域に入ってしまうかも。

非大手テック企業が研究や製品開発のためにこういうデータを買う最良の方法は何だろう?

AIに健康データを預けるのは…めっちゃ危険だよ。Apple自体も信用してないし、いつでも保険会社に健康データを売る可能性があるからね。

誰か「ウェアラブルファンデーション」って何か説明してくれない?

それはウェアラブルデバイス用の「ファンデーションモデル」だよ。「ウェアラブル」は使う場所を指してるだけで、「ファンデーション」を説明してるわけじゃないんだ。

再構成損失じゃなくて、対照損失が使われてるのは面白いね。

大多数のケースで結果がこんなに悪いのに驚いてるのは俺だけ?センサーデータと行動バイオマーカーにアクセスできたファンデーションモデルが、ほぼ10のエリアで、非特定の人口統計データだけを使ったベースライン予測よりも実際にパフォーマンスが劣ってたんだ。しかも、ウェアラブルファンデーションモデルが少し良かったとしても、ほんのわずかにしか良くなかった。こんなに豊富なデータがあるのに、もっと劇的な改善を期待してたんだけど。

大学院の時に似たようなデータを扱ったことがあるから、驚かないよ。データがたくさんあっても、時にはその中に信号(または信号の質)が存在しないこともあるんだよね。そういう時は、超音波やMRIを使ったり、カメラを体に入れたりするしかない。その他の方法は、占いみたいなもんだから。健康に関しては、みんな高い精度を求めるしね。

それがどれだけパフォーマンスの悪い行動モデルに起因しているのか気になるな。数週間前にHNに載ってた記事では、誰かが起きているか寝ているかを判断する精度が約70%だったんだ。おそらく、このデータで使われている二次的な行動データ(心血管フィットネスみたいな)は、生のセンサーデータから予測するのが、起きているか寝ているかよりもずっと難しいと思う。

これを投稿してくれてありがとう。期待できそうだね…Apple Watchを通じて、日々のウォーキングやワークアウト、ランニング、HIIT、体重やBMIなどを含む約3〜3.5年分のApple Health + Fitnessデータがあるんだ。パンデミック中に熱心に集め始めたんだ。エクスポートしたフィットネスデータは約3.5GBで、まずは自分の目的のために、特定の指標がどう進化したかを見たいと思ってる。誰か似たようなことやったことある?RやPythonで?ちょっといじってみたいんだけど。アドバイスもらえると嬉しい!ありがとう!

実際にHealthKit APIと可視化ライブラリを使ってSwiftで分析を書く価値があるかも。ボーナスとして、終わったら売れるアプリができるよ。

ちなみに、うちらも似たようなことに取り組んでるよ(RやPythonを書く必要はないかも)。もしよかったら、bmb@empirical.healthにメールしてくれれば、ベータ版が準備できたら招待するよ!

2つのアプローチを統合するクールな方法だね。モバイルの人のために、もう少しアクセスしやすいインフォグラフィックを作ったよ: https://studyvisuals.com/artificial-intelligence/beyond-sens...