概要
- Thinking Machines による新しいAIインタラクションモデルの研究公開
- モデル自体が リアルタイムな対話性 を持ち、外部の仕組みに依存しない設計
- 音声・映像・テキスト を連続的に処理し、同時に考え・応答・行動
- マルチストリーム・マイクロターン 設計による即応性と高知性の両立
- 人とAIの 自然な協働 を目指す新たなアプローチ
インタラクションモデルの研究プレビュー発表
- インタラクションモデル とは、AIが外部の補助なしに 対話性をネイティブに持つモデル のこと
- AIの知性と同様に インタラクションのスケーラビリティ が重要
- ユーザーは 音声・映像・テキスト を通じてAIと リアルタイム で協働
- モデルは 一から学習 し、即応性のために マルチストリーム・マイクロターン設計 を採用
- 知性と応答性 の両立という新しい対話能力を実現
現状のAIインターフェースの課題
- 多くのAIラボでは 自律性 を最重視し、 人間がループに残る設計 が最適化されていない
- 実際の業務では 人間の継続的なフィードバック が不可欠
- 既存のモデルやUIは 人間の介入余地が少ない ため、ユーザーが疎外される傾向
- メールでのやりとり のような非同期的な対話では、重要な知識や意図が伝わりにくい
より自然な対話性の要件
- コプレゼンス :他者が関わっているものに自分も関与できる状態
- 同時性 :情報を即時に相互にやり取りできる環境
- 重なり合い :同時に情報を発信・受信できること
- これらの性質が 人間同士の協働 や 口頭文化 において重要
- 現在のAIは ターン制 が主流で、 リアルタイムな現実認識 ができていない
インタラクションモデルの新規性
- モデルが 連続的な現実世界のストリーム を処理
- ユーザーの入力や状況 を途切れずに認識・反応
- AIと人間のバンド幅の制約 (知識や意図が伝わる幅)が解消
- リアルタイムでマルチモーダルな協働 が可能
従来手法との違いと「苦い教訓」
- 既存のAIは 外部ハーネス でインタラクションを模倣
- 例:音声活動検出(VAD)によるターン境界の検出
- 「 The Bitter Lesson」から、手作りの仕組みは 汎用モデルの進化に追いつかない と示唆
- インタラクションも モデル本体に組み込む ことで、スケールとともに進化
インタラクションモデルで実現できる能力
- シームレスな対話管理 :話者の状態を暗黙的に把握し、適切に応答
- 言語的・視覚的な割り込み :必要に応じてAI側からも介入
- 同時発話 :ユーザーとAIが 同時に会話可能
- 時間認識 :経過時間を直接把握
- ツール利用やUI生成の同時進行 :会話しながら並行して検索やUI生成
システムのアーキテクチャ
- 時間整合型マイクロターン :200msごとに入力・出力をストリーム処理
- 常時双方向 でユーザーとやりとり
- バックグラウンドモデル :長期的推論やツール利用などを非同期で担当
- インタラクションモデル は常にユーザーに寄り添い、バックグラウンドの結果を会話に統合
- 両モデルがコンテキストを共有 し、 知性と応答性を両立
技術的特徴と設計
- 連続的な音声・映像処理 を前提に設計
- エンコーダ不要の早期融合 :音声・映像は軽量な埋め込み層で直接処理
- 200ms単位のマイクロターン で、複数モダリティの入力・出力を同時処理
- 人工的なターン境界が不要 で、自然な割り込みや同時発話が可能
- 推論時の最適化 :既存LLM推論ライブラリのオーバーヘッドを回避するため、 ストリーミングセッション を実装
まとめと展望
- Thinking Machines のインタラクションモデルは、 リアルタイム・マルチモーダル・双方向 のAI協働を実現
- 知性と対話性を同時に進化 させる新しいAI設計思想
- 今後のAIインターフェースの 標準となる可能性