世界を動かす技術を、日本語で。

OpenTSLM: 時系列を理解する言語モデル

概要

  • AI分野で新たな基盤モデル「Time-Series Language Models(TSLMs)」の登場
  • TSLMsはテキストと並んで時系列データをネイティブに扱う能力
  • 従来モデルに比べて桁違いの効率と精度を実現
  • OpenTSLMとFrontier TSLMsによるオープンとエンタープライズ両立の戦略
  • 医療、ロボティクス、インフラなど多様な応用可能性

AIの未来は「時系列」で実現される

  • AI基盤モデル はこれまでテキスト・画像・音声・動画に強み
  • 現実世界のデータ は心拍、価格、センサー、クリックなど「時系列信号」が中心
  • 既存モデルは 時系列推論 が不得意という課題
  • OpenTSLMは 時系列を第一級モダリティ として扱う新クラスのAIモデル
  • テキストと同様に 時系列データの直接解釈・説明・予測 が可能

Time-Series Language Models(TSLMs)の特徴

  • マルチモーダル基盤モデル として時系列とテキストを同時に扱う設計
  • 自然言語での質問・説明・推奨 を時系列データに対して実現
  • 従来比で桁違いの推論精度と効率性 を実証
  • 軽量かつ高速なバックボーン で動作
  • TSLMsは単なる追加機能でなく、 AIの新しいモダリティ

OpenTSLMとFrontier TSLMs

  • OpenTSLM
    • 公開データで訓練された軽量なベースモデル
    • 時系列推論の標準を設定
    • グローバルな開発者・研究コミュニティの基盤
  • Frontier TSLMs
    • 専用データで訓練された高性能なプロプライエタリモデル
    • 企業向けAPI、ファインチューニング、業界特化ソリューションを提供

技術的成果と事例

  • クロスアテンションアーキテクチャ で長大な時系列もスケール可能
  • 複数ストリーム・可変長時系列 を同時処理し、テキスト文脈と統合
  • 解釈可能な説明生成 (専門家・臨床医による検証済み)
  • 実績例
    • 睡眠ステージ分類:4.4倍精度、モデルサイズ1/200(約880倍効率)
    • 活動認識:6倍精度、モデルサイズ1/200(約1,000倍効率)
    • 12誘導ECG解釈:2倍精度、モデルサイズ1/200(約400倍効率)、テキストと同時処理・医師検証済み

応用分野と今後の展望

  • プロアクティブなヘルスケア
  • 適応型ロボティクス
  • 強靭なインフラ管理
  • 新しい人間-AI協働 の形
  • 時系列インターフェースが AIと現実世界をつなぐレイヤー

OpenTSLMチームについて

  • ETH, Stanford, Harvard, Cambridge, TUM, CDTM, Google, Meta, AWS 出身の科学者・エンジニア・ビルダーで構成
  • OpenTSLM論文の オリジナル著者
  • Stanford, ETH Zurich, UIUC, University of St. Gallen, University of Washington, Google, Amazon などと連携

参考リンク

Hackerたちの意見

「スタンフォードリポが2025年9月31日にリリースされた」って、9月30日の翌日が31日になる確率がゼロじゃない分布からサンプリングされたみたいな感じだね…。

メッセージありがとう。皮肉なことに、その投稿は時間を理解するために作られたモデルについてなんだよね。

もう修正されたよ。

モデルにスクリプトを書かせて、TSライブラリを呼び出して、インタープリターに実行させる方が良くない?人間ならそうすると思うんだけど。モデルに組み込む必要があるとは思えないな。ツール呼び出しでできることを、ネイティブTS機能でやる意味って何?

実際に時間の概念を持ってるの?因果関係を理解してるのかな?

Anthropicも「モデルにスクリプトを書かせる」技術を推奨してるよ、彼らの最新のClaude Agent SDKの発表に埋もれてるけど、これが印象に残った:> Claude Agent SDKはコード生成に優れていて、その理由は明白。コードは正確で、構成可能で、無限に再利用できるから、複雑な操作を信頼性高く実行する必要があるエージェントにとって理想的な出力なんだ。> エージェントを構築する際には、どのタスクがコードとして表現されることで恩恵を受けるか考えてみて。しばしば、その答えが大きな能力を引き出すんだ。https://www.anthropic.com/engineering/building-agents-with-t...

ポイントを見逃してると思うよ。画像を説明したり、画像のシーケンスを推論するために画像分析ライブラリを呼び出すの?論文の中のいくつかのプロットを見て、これらのモデルが何をできるか確認してみて。

これめっちゃクールだね!論文によると、この技術は時系列の質問応答にうまく機能するみたい。医療AIにおいて、個人的には人間には微妙すぎて検出できない病気の信号を見つけることが最もエキサイティングな仕事だと思う。例えば、心電図からの駆出率の推定(これは心臓専門医でもできないけど、アルゴリズムはできて、RCTでテストされてる: https://www.nature.com/articles/s41591-021-01335-4)。OpenTSLMが時系列をLLMの埋め込み空間にトークン化するから、そのプロセスがそんな微妙な信号をキャッチするのを妨げることはないのかな?それとも、そのユースケースに対応できるようにアプローチを拡張できる?

OpenTSLMモデルは、まさにこういう微妙な信号を捉えるために作られてるんだよ。それが元々の動機の一つだった。モデルは生の時系列データをクロスアテンションで統合して、具体的な時系列表現を生の時系列エンコーダーで学習するんだ。

基本的な作業は「Flamingo」っていうもので、これはテキストと画像を順番に理解するためのシステムなんだ。だから、2つの「モダリティ」を同時に処理できるんだよ。この新しい研究は、1つの「モダリティ」チャンネルに時間トークンを入れることで、時間に対する意識を高めているみたい。 (ウェブサイトがめっちゃ可愛い。テキストに左から右へのグラデーションを適用するのはちょっとやりすぎかな。)

期待できそう!今日帰ったら試してみるつもり。音声の時系列データを大量に扱ってるんだけど(言葉じゃなくて微妙な変化があるやつ)、従来の統計手法と比べてどうなるか興味あるな。

「時系列をLLMに統合するためにクロスアテンションを使う研究は少ない」 まあ、確かにそうだけど、それに対する研究が必要な理由って何?クロスアテンションを使って時系列のダイナミクスを非LLMのトランスフォーマーモデルに統合する先行研究はたくさんあるよね?それとも、時系列の埋め込みをLLMに統合するのが思ってるより難しいのかな。リポジトリを見ると、トレーニングデータはかなり健康に焦点を当てているみたい。もしマルチソースのセンサーデータについて質問に答えさせたいなら、自分のデータセットでモデルを調整しないといけないのかな?

これが自然言語を使って時系列データとやり取りする方法を提供するのは理解できるけど、信号処理やルールベースのアルゴリズムを使うライブラリにツールコールするのと比べて、何か利点があるのかな?例えば、既製のLLMにECGデータを分析させるとする。LLMはツールを使ってECG時系列分析ライブラリに呼び出す。ライブラリはデータを反復処理して、統計やECGイベントを見つける。結果として「平均心拍数:60bpm、AFib検出、など...」みたいなことを返す。LLMは正確な分析をするために必要な情報を持っていて、計算コストはかなり低く抑えられる。それに加えて、大規模な注釈付きデータセットと事前学習済みモデルが必要だよね。それに、もし間違ってたら教えてほしいんだけど、任意の時系列データを扱える「一般的な」モデルを持つのは無理だと思う。例えば、ECGデータで訓練されたモデルは株式市場データとは互換性がないし、株式市場データとECGデータの両方を理解できるモデルは存在しないよね。

これがインターネット規模のデータとやり取りするための会話インターフェースを提供するのは理解できるけど、Googleで検索して一番上のリンクをクリックするのと比べて、何か利点があるのかな?(広告を避けて)クッキーを受け入れるのをクリックして、ヘッダーを読んで、スクロールダウンして、プレミアムサブスクリプションを閉じて、記事の残りを読んで、次の4つのリンクに対してこれを繰り返すのと同じじゃない? まあ、そういうことだよね。

エッジでそれを動かすのは無理だよね。要は、エッジで確実に動かすことが大事なんだ。普通の人は、心拍数モニターをクラウド経由で動かしたいとは思わないよ。リモートサービスの稼働率や信頼性、さらにLLM推論の追加の課題を考えたらね。目指すべきは、エッジで動かすことに加えて、これらの機械がすでに持っている標準的なルールベースの検出機能を活用し、LLMが提供できる高度なパターン検出を加えることで、アラート疲れを減らし、通常のセンサーでは検出できない新しい複雑なパターンを見つけることなんだ。

基本モデルのパラメータ数ってどれくらい?

私の理解では、このモデルは時系列データの分類と解釈のために訓練されているけど、予測のベンチマークを試したことはある?説明と推奨は予測と深く絡み合っていることが多いから、少なくとも何らかの影響はあるはずだよね?

クロードのコードが、心拍数の時系列をモニターして、ベッドを汚してるときに気づいてくれたらいいな。