OpenTSLM: 時系列を理解する言語モデル

2025年10月2日原文(opentslm.com)

概要

AI分野で新たな基盤モデル「Time-Series Language Models（TSLMs）」の登場
TSLMsはテキストと並んで時系列データをネイティブに扱う能力
従来モデルに比べて桁違いの効率と精度を実現
OpenTSLMとFrontier TSLMsによるオープンとエンタープライズ両立の戦略
医療、ロボティクス、インフラなど多様な応用可能性

AIの未来は「時系列」で実現される

AI基盤モデル はこれまでテキスト・画像・音声・動画に強み
現実世界のデータ は心拍、価格、センサー、クリックなど「時系列信号」が中心
既存モデルは 時系列推論 が不得意という課題
OpenTSLMは 時系列を第一級モダリティ として扱う新クラスのAIモデル
テキストと同様に 時系列データの直接解釈・説明・予測 が可能

Time-Series Language Models（TSLMs）の特徴

マルチモーダル基盤モデル として時系列とテキストを同時に扱う設計
自然言語での質問・説明・推奨 を時系列データに対して実現
従来比で桁違いの推論精度と効率性 を実証
軽量かつ高速なバックボーン で動作
TSLMsは単なる追加機能でなく、 AIの新しいモダリティ

OpenTSLMとFrontier TSLMs

OpenTSLM
- 公開データで訓練された軽量なベースモデル
- 時系列推論の標準を設定
- グローバルな開発者・研究コミュニティの基盤
Frontier TSLMs
- 専用データで訓練された高性能なプロプライエタリモデル
- 企業向けAPI、ファインチューニング、業界特化ソリューションを提供

技術的成果と事例

クロスアテンションアーキテクチャ で長大な時系列もスケール可能
複数ストリーム・可変長時系列 を同時処理し、テキスト文脈と統合
解釈可能な説明生成 （専門家・臨床医による検証済み）
実績例
- 睡眠ステージ分類：4.4倍精度、モデルサイズ1/200（約880倍効率）
- 活動認識：6倍精度、モデルサイズ1/200（約1,000倍効率）
- 12誘導ECG解釈：2倍精度、モデルサイズ1/200（約400倍効率）、テキストと同時処理・医師検証済み

応用分野と今後の展望

プロアクティブなヘルスケア
適応型ロボティクス
強靭なインフラ管理
新しい人間-AI協働 の形
時系列インターフェースが AIと現実世界をつなぐレイヤー に

OpenTSLMチームについて

ETH, Stanford, Harvard, Cambridge, TUM, CDTM, Google, Meta, AWS 出身の科学者・エンジニア・ビルダーで構成
OpenTSLM論文の オリジナル著者
Stanford, ETH Zurich, UIUC, University of St. Gallen, University of Washington, Google, Amazon などと連携

参考リンク

OpenTSLM White Paper: https://www.opentslm.com/OpenTSLM-whitepaper.pdf
Stanford Repo: https://github.com/StanfordBDHG/OpenTSLM

Hackerたちの意見

「スタンフォードリポが2025年9月31日にリリースされた」って、9月30日の翌日が31日になる確率がゼロじゃない分布からサンプリングされたみたいな感じだね…。

└

メッセージありがとう。皮肉なことに、その投稿は時間を理解するために作られたモデルについてなんだよね。

└

もう修正されたよ。

モデルにスクリプトを書かせて、TSライブラリを呼び出して、インタープリターに実行させる方が良くない？人間ならそうすると思うんだけど。モデルに組み込む必要があるとは思えないな。ツール呼び出しでできることを、ネイティブTS機能でやる意味って何？

└

実際に時間の概念を持ってるの？因果関係を理解してるのかな？

└

Anthropicも「モデルにスクリプトを書かせる」技術を推奨してるよ、彼らの最新のClaude Agent SDKの発表に埋もれてるけど、これが印象に残った：> Claude Agent SDKはコード生成に優れていて、その理由は明白。コードは正確で、構成可能で、無限に再利用できるから、複雑な操作を信頼性高く実行する必要があるエージェントにとって理想的な出力なんだ。> エージェントを構築する際には、どのタスクがコードとして表現されることで恩恵を受けるか考えてみて。しばしば、その答えが大きな能力を引き出すんだ。https://www.anthropic.com/engineering/building-agents-with-t...

└

ポイントを見逃してると思うよ。画像を説明したり、画像のシーケンスを推論するために画像分析ライブラリを呼び出すの？論文の中のいくつかのプロットを見て、これらのモデルが何をできるか確認してみて。

これめっちゃクールだね！論文によると、この技術は時系列の質問応答にうまく機能するみたい。医療AIにおいて、個人的には人間には微妙すぎて検出できない病気の信号を見つけることが最もエキサイティングな仕事だと思う。例えば、心電図からの駆出率の推定（これは心臓専門医でもできないけど、アルゴリズムはできて、RCTでテストされてる: https://www.nature.com/articles/s41591-021-01335-4）。OpenTSLMが時系列をLLMの埋め込み空間にトークン化するから、そのプロセスがそんな微妙な信号をキャッチするのを妨げることはないのかな？それとも、そのユースケースに対応できるようにアプローチを拡張できる？

└

OpenTSLMモデルは、まさにこういう微妙な信号を捉えるために作られてるんだよ。それが元々の動機の一つだった。モデルは生の時系列データをクロスアテンションで統合して、具体的な時系列表現を生の時系列エンコーダーで学習するんだ。

基本的な作業は「Flamingo」っていうもので、これはテキストと画像を順番に理解するためのシステムなんだ。だから、2つの「モダリティ」を同時に処理できるんだよ。この新しい研究は、1つの「モダリティ」チャンネルに時間トークンを入れることで、時間に対する意識を高めているみたい。（ウェブサイトがめっちゃ可愛い。テキストに左から右へのグラデーションを適用するのはちょっとやりすぎかな。）

期待できそう！今日帰ったら試してみるつもり。音声の時系列データを大量に扱ってるんだけど（言葉じゃなくて微妙な変化があるやつ）、従来の統計手法と比べてどうなるか興味あるな。

「時系列をLLMに統合するためにクロスアテンションを使う研究は少ない」まあ、確かにそうだけど、それに対する研究が必要な理由って何？クロスアテンションを使って時系列のダイナミクスを非LLMのトランスフォーマーモデルに統合する先行研究はたくさんあるよね？それとも、時系列の埋め込みをLLMに統合するのが思ってるより難しいのかな。リポジトリを見ると、トレーニングデータはかなり健康に焦点を当てているみたい。もしマルチソースのセンサーデータについて質問に答えさせたいなら、自分のデータセットでモデルを調整しないといけないのかな？

Hacker Newsで議論の続きを見る

ハクソク