世界を動かす技術を、日本語で。

インタラクションモデル

概要

  • Thinking Machines による新しいAIインタラクションモデルの研究公開
  • モデル自体が リアルタイムな対話性 を持ち、外部の仕組みに依存しない設計
  • 音声・映像・テキスト を連続的に処理し、同時に考え・応答・行動
  • マルチストリーム・マイクロターン 設計による即応性と高知性の両立
  • 人とAIの 自然な協働 を目指す新たなアプローチ

インタラクションモデルの研究プレビュー発表

  • インタラクションモデル とは、AIが外部の補助なしに 対話性をネイティブに持つモデル のこと
  • AIの知性と同様に インタラクションのスケーラビリティ が重要
  • ユーザーは 音声・映像・テキスト を通じてAIと リアルタイム で協働
  • モデルは 一から学習 し、即応性のために マルチストリーム・マイクロターン設計 を採用
  • 知性と応答性 の両立という新しい対話能力を実現

現状のAIインターフェースの課題

  • 多くのAIラボでは 自律性 を最重視し、 人間がループに残る設計 が最適化されていない
  • 実際の業務では 人間の継続的なフィードバック が不可欠
  • 既存のモデルやUIは 人間の介入余地が少ない ため、ユーザーが疎外される傾向
  • メールでのやりとり のような非同期的な対話では、重要な知識や意図が伝わりにくい

より自然な対話性の要件

  • コプレゼンス :他者が関わっているものに自分も関与できる状態
  • 同時性 :情報を即時に相互にやり取りできる環境
  • 重なり合い :同時に情報を発信・受信できること
  • これらの性質が 人間同士の協働口頭文化 において重要
  • 現在のAIは ターン制 が主流で、 リアルタイムな現実認識 ができていない

インタラクションモデルの新規性

  • モデルが 連続的な現実世界のストリーム を処理
  • ユーザーの入力や状況 を途切れずに認識・反応
  • AIと人間のバンド幅の制約 (知識や意図が伝わる幅)が解消
  • リアルタイムでマルチモーダルな協働 が可能

従来手法との違いと「苦い教訓」

  • 既存のAIは 外部ハーネス でインタラクションを模倣
    • 例:音声活動検出(VAD)によるターン境界の検出
  • The Bitter Lesson」から、手作りの仕組みは 汎用モデルの進化に追いつかない と示唆
  • インタラクションも モデル本体に組み込む ことで、スケールとともに進化

インタラクションモデルで実現できる能力

  • シームレスな対話管理 :話者の状態を暗黙的に把握し、適切に応答
  • 言語的・視覚的な割り込み :必要に応じてAI側からも介入
  • 同時発話 :ユーザーとAIが 同時に会話可能
  • 時間認識 :経過時間を直接把握
  • ツール利用やUI生成の同時進行 :会話しながら並行して検索やUI生成

システムのアーキテクチャ

  • 時間整合型マイクロターン :200msごとに入力・出力をストリーム処理
  • 常時双方向 でユーザーとやりとり
  • バックグラウンドモデル :長期的推論やツール利用などを非同期で担当
  • インタラクションモデル は常にユーザーに寄り添い、バックグラウンドの結果を会話に統合
  • 両モデルがコンテキストを共有 し、 知性と応答性を両立

技術的特徴と設計

  • 連続的な音声・映像処理 を前提に設計
  • エンコーダ不要の早期融合 :音声・映像は軽量な埋め込み層で直接処理
  • 200ms単位のマイクロターン で、複数モダリティの入力・出力を同時処理
  • 人工的なターン境界が不要 で、自然な割り込みや同時発話が可能
  • 推論時の最適化 :既存LLM推論ライブラリのオーバーヘッドを回避するため、 ストリーミングセッション を実装

まとめと展望

  • Thinking Machines のインタラクションモデルは、 リアルタイム・マルチモーダル・双方向 のAI協働を実現
  • 知性と対話性を同時に進化 させる新しいAI設計思想
  • 今後のAIインターフェースの 標準となる可能性

Hackerたちの意見

モデルのすごさは別として、ここでのデモはめっちゃよくできてる!アンソロピックやオープンAIのものとは違って、ちょっと quirky で短い感じ。

信じられないくらい印象的なデモだね。これらのモデルのトレーニングデータってどんな感じなんだろう?特別な「スキル」のバッチがトレーニング後に追加されるのかな?モデルが最終的にスキルを失わないようにどうやって保証するんだろう?

すごくクール!デモはちょっと作り物っぽい感じがしたな。例えば、話してる間に物を数えるとか。もっと役に立つ商業的なアプリケーションはどんな感じになるんだろう?

理論的には、現在の最前線モデルができることはすべてできると思うけど、リアルタイムのインタラクティビティが加わることで、より良いコラボレーションができるっていう利点がある。最大の利点はリアルタイムのビデオ入力かもしれないね。それによって、入力に基づいて出力を生成するのと同時にその入力を受け取ることができるから、一度にビデオや画像を全部受け取ってから出力を生成するのとは違うんだ。

そうだね!これはAIデモで気づいた大きなことだよ。もし自分の技術を見せるためのベストなユースケースが、簡単に自分でできる旅行の予約だったら、そのサービスって本当に価値があるの?それとも、実際の使い方は微妙で専門的で、一般向けのデモには向かないからそうなってるのかな?よくわからないな。

私にとって注目すべき点は、アーキテクチャがテキスト、画像、音声入力を受け取り、テキストと音声出力を生成するトランスフォーマーで、すべてが一緒にトレーニングされていること。入力と出力を純粋に生成するのではなく、ほぼリアルタイムで交互に処理するってところだね。> タイムアラインド・マイクロターン。インタラクションモデルは、200ms分の入力処理と200ms分の出力生成を継続的に交互に行うマイクロターンで動作する。完全なユーザーターンを消費して完全な応答を生成するのではなく、入力と出力のトークンがストリームとして扱われる。これらのストリームの200msのチャンクで作業することで、複数の入力と出力のモダリティがほぼリアルタイムで同時に処理できる。これが他の最前線のラボのマルチモーダルモデルと区別される主な点だと思う。

僕が多モーダルアーキテクチャに興味を持っているのは、異なるモーダリティが同じものの「側面」として見えるアプリケーションが出てくるかもしれないからなんだ。例えば、「コード」+「IDE」+「メモリマッピング」+異なるプラグインからのフィードバックを異なるモーダリティとして扱うコーディングエージェントみたいな感じ。出力もそれぞれのモーダリティに応じてできるし、必要なところではテキスト、アクション(今のようにcall_something(params)じゃなくて)とかね。「モーダリティのどれかがトリガーされるまでじっとしている」っていうのが本当に面白い。今でもできることだけど、後付けでくっつけた感じなんだよね。それでも驚くほどうまくいってる。もしこの組み合わせで最初からトレーニングしたら、どれくらい上手くいくんだろう?

これらのビデオは見る価値あり!すごい瞬間がたくさんあるけど、最初のシーンで女性が「物語を話すよ」と言って、コーヒーを一口飲むまでの長い間がたまらなかった。モデルは…何もせずに待ってるだけ。お金を払いたい!お金を払うって話だけど、こんな会社の経済モデルってどうなってるんだろう?彼らはアーキテクチャについてかなりのことを公開してるけど、最前線のラボが実装できるくらいにはね。特許とか、企業秘密とか?アンソロピックやGOOG、oAI、Metaのトレーニングコンピュートやノウハウを法的保護なしに超えるのは難しいと思う。30-40%低遅延で、もっとモデルのインテリジェンスがあるアーキテクチャがどうなるのか楽しみだな。すごく魅力的。参考までに、これらはOpus 4.7 / GPT 5.xシリーズの約1/10のサイズに見える -- 275B、12Bアクティブ。だから、インテリジェンスを追加する余地がたくさんあって、低遅延が見られることに期待が持てる。

彼らはアーキテクチャについてかなりのことを公開している - 最前線のラボが実装できるくらいにはね。実際のところ、彼らはこれが氷山の一角だって知ってると思う?ハイパーパラメータの調整、データレシピ、データ収集、カスタムカーネル、強化学習/評価インフラ、これらはすべて非常に深いトピックで、SOTAパフォーマンスを生み出すために数十年分の博士課程の人生を凝縮する必要がある。あなたが感心していることを再評価した方がいいよ。ただ待つことはトレーニング後のことだから、ジェミニやoAIがそれを優先していないのは、あまり重視しすぎない方がいい。フルデュプレックスで見せたことは、技術的には達成するのがはるかに難しいから。

彼らはトップの研究者を雇っていて、トップの研究者は発表できない限りあなたのためには働かないよ。

中国では、有望な新興企業がアリババかテンセントからオファーを受けることがよく知られてるよね。アメリカでも似たような感じだと思う。公に出ているものは、買収されたり単純にコピーされたりする可能性がある。Thinking Machinesもそういうことを期待してるのかな?

本当にすごいね。これが効率よく提供できるなら、いろんなことが変わるだろうね。

すごいデモだね。こういうのの億ドル規模の応用って何になるんだろう?

すごい技術だと思う。これがどんな風に使われるか、みんな過小評価してる気がする。

同時通訳が一番いいね。

これ、Gemma4やTTSで地元の人たちがすでに作ってるものに似てるね。ちょっとおしゃれな感じだけど。ローカルモデルもすぐに追いつくと思うよ。