センサーデータを超えて：ウェアラブルからの行動データの基盤モデル

2025年8月21日原文(arxiv.org)

概要

本論文は、 ウェアラブルデバイス から得られる 行動信号 を活用した 基盤モデル の開発について述べる。 162,000人・25億時間分の 大規模データ を用いてモデルを構築。 57種の健康関連タスクで 高い性能 を実証。特に 睡眠予測 などの行動駆動型タスクで優位性を示す。センサーデータと組み合わせることでさらなる精度向上を確認。

ウェアラブルデータを活用した基盤モデルの開発

ウェアラブルデバイス が記録する 生理・行動信号 の活用
行動データは、 生理学的に意味のある時間スケール・量 と整合しやすい特性
既存の基盤モデルは 低レベルセンサーデータ への適用が中心
行動信号に特化した 基盤モデル の必要性

大規模データセットと最適化手法

162,000人、 25億時間 分のウェアラブルデータを収集
アーキテクチャ と トークナイゼーション戦略 を体系的に最適化
特有のデータセット構造に対応した設計

多様な健康タスクでの評価

57種類 の健康関連タスクを用いた性能評価
- 個人レベルの分類
- 時間変化する健康状態の予測
現実世界 での多様な応用可能性を実証

行動駆動タスクでの優位性

睡眠予測 など、行動中心のタスクで特に高い精度
生データ表現 と組み合わせることでさらなる性能向上

基盤モデル設計の意義と今後の展望

ウェアラブルデバイス に合わせたモデル設計の重要性を強調
新たな 健康アプリケーション の可能性を提示

論文情報・発表状況

ICML 2025採択論文
分野： 機械学習（Machine Learning）、 人工知能（Artificial Intelligence）
著者： Joseph Futoma 他
arXiv:2507.00191 [cs.LG]
DOI: https://doi.org/10.48550/arXiv.2507.00191

Hackerたちの意見

2018年に、初期のウェアラブルファンデーションモデルの開発に携わったんだ。この2025年のAppleの論文は、より高い抽象レベルに進化してるよ。生のセンサーデータ（PPGや加速度計）でトレーニングするのではなく、そのデータから得られた行動バイオマーカーの時系列でトレーニングしてるんだ（例えば、HRVや安静時心拍数など）。いろんな病状の検出精度が高いことがわかってるよ：糖尿病（83%）、心不全（90%）、睡眠時無呼吸（85%）とか。

└

データサイエンスに関しては、ジム・シモンズのアドバイスを思い出すな。「まずはソートして、それから回帰しろ」ってやつ。

└

「ファンデーションモデル」ってもう専門用語になってるのかな？

└

保険会社や健康保険会社は、この研究とその応用にめっちゃ興味があるんじゃないかな。

└

83%の「精度」って何？予測された糖尿病のケースの83%が実際に糖尿病なの？それとも、糖尿病の人の83%がそう診断されたの？精度と再現率の問題だね。一方を改善するためには、もう一方を犠牲にしなきゃいけないこともある。1つの数字にまとめるのは難しいよ。

自分のデータでこれを動かす方法はあるのかな？何年もApple Watchを使ってるから、もっと活用できたらいいな。

└

まだだね。この研究はあくまで研究用だから。彼らの以前の研究のいくつかは製品機能に組み込まれてるよ。例えば、Apple WatchのVO2Max（心肺フィットネス）は2023年に発表された深層ニューラルネットワークに基づいてるんだ。

誰か、重みの公開やAPIのリリースを見た人いる？

└

論文の中で、研究参加者との同意条件のために重みを公開できないって言ってるよ（これはAppleの心臓と運動の研究からのもの）。

医療技術に関わってるからこれが大好きなんだけど、大きな問題はオープンな重みやデータがないことだね。自分のAppleのXMLデータをエクスポートして使ったり処理したりできるけど、アプリを作ってユーザーからAppleのXMLデータを要求するとなると、データセキュリティポリシーや匿名化の要件に関わる臨床研究の領域に入ってしまうかも。

└

非大手テック企業が研究や製品開発のためにこういうデータを買う最良の方法は何だろう？

└

AIに健康データを預けるのは…めっちゃ危険だよ。Apple自体も信用してないし、いつでも保険会社に健康データを売る可能性があるからね。

Hacker Newsで議論の続きを見る

ハクソク