概要
- ロボティクスはLLM時代に急速に進化し、実用性を超えた「表現力」が重要視され始めた動向
- AppleのELEGNT論文やSpiRobsなど、意図や感情を伝えるロボット設計の新潮流
- Shoggoth Mini開発を通じて、ハードウェア設計や制御系、知覚、強化学習の工夫と課題
- 表現力と「生きている感」の違い、予測不可能性が与える印象の考察
- 今後の展望として、さらなる表現の拡張や人間との快適な共存の可能性を模索
ロボティクスと表現力の新時代
- Piのπ0.5 や Tesla Optimus など、最新ロボットは自然言語指示や未知環境での作業が可能
- しかし、多くは 家電的な実用主義 にとどまり、共生には「表現力」が不可欠
- 表現力 は意図・注意・自信などの「内部状態」を伝達し、自然な対話を実現
- 表現が不足すると「 不気味の谷」現象が顕著化
- Apple ELEGNT論文 はPixar風ランプで姿勢・タイミングのみで意図を伝える設計を提案
- SpiRobs のような柔軟な触手ロボットも、単純な動きで「生きている感」を醸し出す
- 意図的な設計と偶発的な「生命感」の違いに着目し、 Shoggoth Mini 開発を開始
Shoggoth Mini開発経緯
- 実験用テストベッド として、3つのモーターと触手を支えるドームを設計
- フィラメント切れの偶然から「口」のような外観に、さらに目を描いて独特なキャラクター性を獲得
- ステレオカメラ 搭載で触手追跡を実現、ロボットの「目」が注目を集める要素に
- ケーブルの絡まり問題には スプールカバー 追加で大幅改善
- キャリブレーションスクリプト と余剰ワイヤーでメンテナンス性向上
- ケーブルの巻き戻し・再巻き取りが容易
- テンション調整の精度向上
- 制御ポリシーの自由度確保
- 触手の自重による「たるみ」には 背骨の強化 で対処
- 3D CADデータ とSTLファイルを公開、誰でも再現可能な設計
マニュアル制御
- 触手の3本の腱長(3次元)を 2次元トラックパッド操作 に単純化
- 各腱の主方向にカーソルベクトルを射影し、腱の伸縮量を計算
- $s_i = \mathbf{v}_i^\top \mathbf{c}$
- 2次元操作は直感的で、誰でも即座に触手を動かせる
- この 2D→3D射影 は全自動制御にも流用され、システムの基盤に
システム設計
- 制御層は2層構造
- 低レベル制御: オープンループの基本動作(例:「うなずく」「振る」)と、クローズドループ強化学習(例: 指追従)
- 高レベル制御: GPT-4oのリアルタイムAPIで音声とテキストを処理、視覚イベントはテキストで送信
- DeepMind Gemini Robotics論文のVLA(Vision-Language-Action)モデルに着想
- GPT-4oはタイミング調整が難しく、プロンプトエンジニアリングが重要
- エンドツーエンド学習 は柔軟体ロボットでは不安定なため、視覚+軽量コントローラのカスケード型設計を採用
- API呼び出し間の「無反応」時に 呼吸するアイドルモード を追加し、生命感を演出
知覚(Perception)
- MediaPipe で手の追跡、被写体の遮蔽にはやや弱い
- 触手先端の追跡は、様々な状況でデータセットを収集し、 Roboflow で自動ラベリングと拡張
- YOLO で触手先端検出モデルを訓練、 DeepLabCut でカメラキャリブレーション
- これにより手と触手の リアルタイム3D三角測量 を実現
低レベル制御API
- 柔軟体ロボットは逆運動学が困難、 2D射影制御 で直感的に動作設計
- 背骨強化で再現性も安定
- 「つかむ」動作は前方ケーブルを引き、他を緩めるだけで多様な物体を把持可能
- 高度な巧緻操作は難しいが、 機械的なロバスト性 が設計上の利点
強化学習(Reinforcement Learning)
- 指追従ポリシーで MuJoCoシミュレーション から現実転送を検証
- PPO+MLP+フレームスタック、動力学ランダム化で転送性向上
- 初期は腱長直接制御で「報酬ハッキング」発生、 2D射影制約 で現実的な動作に
- カリキュラム学習で徐々に3D制御へ拡張も可能
- アクションの急変による「ジッター」は、 連続差分ペナルティ や 指数移動平均 でスムーズ化
- シミュレーションから実機への転送もスムーズに実現
表現力と「生きている感」
- 初期は予測不能な動きが「生きている感」を醸成
- 制御が洗練されるほど、予測誤差が減り「生命感」が薄れる傾向
- 表現力 は内部状態の伝達だが、「生命感」は 予測不能性や不透明さ に由来
- 人間と共存するロボットに「どこまで生命感を持たせるべきか」は今後の課題
今後の展望
- より「非人間的」な 音声表現 の導入
- 表現力と快適な共存のバランス探求
- 柔軟体ロボットの 新たな表現・インタラクション の可能性拡張