私の知る限り、主要な自動運転車やロボティクスの会社は、何らかの形でこれらのLVLMをシステムに統合してるし、今はLLMよりもLVLMとやり取りしてる可能性が高いよ。もし画像を生成したり、画像を読んだりできるなら、それはLVLMだ。問題はLLMと同じで、一般的な理解がないから、より抽象的な文脈の概念を区別できないことだ。わかりやすい例を挙げると、「誰のためでもない」と書かれたステッカーがついた停止標識を見たら、思わず笑っちゃって、実際の標識を無視するわけじゃないって理解できるよね。あれはただのステッカーだから。でも、L(V)LMはそんなふうに情報を区分けしたり「サンドボックス」したりできない。すべての情報が同じように処理される。できることは、たくさんの敵対的な例を追加して、機械が一般的なパターンを学ぶのを期待することだけど、そういう情報を区分けするための内在的なメカニズムはないし、この文脈のニュアンスを区別するメカニズムもない。面白いのは、これらのシステムを採用すればするほど、ドラマ「Upload」でのハッキングの描写がより正確に見えるようになることだね。 [0] https://www.youtube.com/watch?v=ziUqA7h-kQc 編集: 他のところでリンクしたから、みんなが疑ってるみたいだけど、数年前のWaymoがGeminiを取り入れる話をしてるのがこれだよ[1]。それから、この記事で言及されているDriveLMデータセットもこれだよ[2]。Teslaは「LLMにインスパイアされた」システムを使っていると言っていて、タスクに対して画像キャプションのようにアプローチしているんだ[3]。それに、1XがVLMを使った「ワールドモデル」について話してるのもあるよ[4]。みんな、これがこの話の本質だからね。特定の会社を挙げてるわけじゃなくて、例として使ってるだけ。これがこの分野のやり方で、彼らだけじゃない。みんなAIを具現化しようと頑張ってるし、AGIに向かう目的はどんなタスクでも達成できるようになることなんだ。昨日のフロントページにあったGenieプロジェクト?それはビデオゲームよりもロボットに関することがはるかに多いよ。 [1] https://waymo.com/blog/2024/10/introducing-emma/ [2] https://github.com/OpenDriveLab/DriveLM [3] https://kevinchen.co/blog/tesla-ai-day-2022/ [4] https://www.1x.tech/discover/world-model-self-learning