コンテンツにスキップ

深層予測学習

概要

深層予測学習(Deep Predictive Learning)とは、脳の多様な機能を統一的に説明する自由エネルギー原理を参考に開発されたロボット動作生成手法である1。 遠隔操作などを用いて実世界でロボットが動作を経験した際の運動と感覚の時系列情報を用いて、時刻($t$)と次時刻($t+1$)の感覚運動情報の予測誤差が最小になるように再起結合型神経回路モデル(Recurrent Neural Network: RNN)を学習する。 実行時には、ロボットの感覚運動情報からリアルタイムに近未来の感覚と動作を予測し、RNN内のアトラクタの引き込み作用により結果的に予測誤差が最小になるような動作を実行することが可能である。 下図は深層予測学習のロボット実装を示しており、動作教示、学習、動作生成の3ステップから構成される。

深層予測学習の概要図


動作教示

深層予測学習ではロボットの感覚運動情報(運動情報・センサ情報などから構成される時系列データ)を直接学習データとすることで、動作生成モデルをデータドリブンに獲得する。 そのため、学習データにはロボットの身体と環境とのインタラクションに関する情報が含まれている必要がある。 また、学習データの量と質はモデルの性能に大きく影響するため、高品質なデモンストレーションデータを効率的に収集できることが望ましい。

ステップ1では、所望の動作をロボットに教示し、その時の感覚運動情報を一定のサンプリングレートで記録することで学習データを収集する。 代表的な動作教示方法として、プログラミングによる動作記述2 、ダイレクトティーチング3、テレオペレーション1などが挙げられる。 ロボット用プログラミング言語などを用いて事前に動作を記述しておくことは最も単純な教示手法であるが、長期の動作をロボットに行わせる際には記述が複雑になり、実現できない可能性がある。 一方、人間がロボットを操作して動作教示を行うことで、精密なモデリングやパラメータ調整などを必要とせずに訓練データを取得することが可能である。 中でも、実際のロボット視点からマニピュレータを遠隔操作する手法(Wizard of Oz4)はタスクに対する人間の操作スキルを直観的にロボットに教示できるため望ましい。 作業者は自分自身の身体を操るようにロボットを操縦することで、環境との自然なインタラクションを行う。 また、操作者はセンサ情報から得た情報をもとに動作を決定するため、取得した教示データセットには動作学習に必要な情報が含まれると考えられ、モデルの訓練に有効なデータの獲得が期待される。


学習

ステップ2の深層予測学習では、実世界でロボットが動作を経験した時の運動と感覚の時系列を学習する。 人がロボットを複数回遠隔操作した際のロボットのセンサ情報を学習データとし、現在と次時刻の視覚身体情報の予測誤差が最小になるようにモデルを学習する。 具体的には、現在のロボット状態($i_t, s_t$)をモデルに入力し、次ステップのロボットの予測状態($\hat i_t, \hat s_{t+1}$ )と真値($i_{t+1}, s_{t+1}$)が一致するように学習する。 学習データには正解ラベルがつけられていないため、この教師あり学習によりロボット動作生成に重要な特徴量抽出やモーダル間の関係性の学習を行う。 これにより、従来のロボティクスで必要であった環境の物理モデルの詳細な設計や、複数のモダリティにまたがる環境認識と動作生成の機能を統合したダイナミックを獲得することが可能である。

モデルはロボットの感覚運動情報を学習するために、特徴量抽出と時系列学習部から構成される。 特徴量抽出部はロボットが取得したセンサ情報から特徴量を抽出し、時系列学習部では抽出した特徴量と関節角度などで表現されるロボット状態を統合した感覚運動情報を学習する。 本マニュアルでは、特徴量抽出部と時系列学習部をEnd-Endで学習させる方法を CNNRNNSARNNに、独立して学習させる方法をCAE-RNN に、それぞれの利点・欠点を含めて述べる。


推論

ステップ3の動作生成では、ロボットの感覚運動情報からリアルタイムに近未来の感覚と運動を予測する。 具体的には、モデルの前向き計算を毎ステップ行うことで、RNNは内部で保持するコンテキスト情報($c_t$)と入力情報($x_t$)に基づいて、次ステップのロボット状態($\hat x_{t+1} $)を予測する。 その後、RNNの予測値を目標状態として各関節の制御を行う。 上記の作業をオンラインで繰り返し行うことで、逐次的にロボットからセンサ情報を取得し、モデルによる予測、ロボットへの制御コマンドの送信を行う。 この予測結果や実環境との予測誤差に基づいて、ロボットは入力に対して動的に対応する動作を生成可能である。

深層予測学習モデルを動作生成に用いる利点の一つに、オンライン時における動作の生成速度が挙げられる。 提案するフレームワークは軽量なモデルから構成されており、動作生成時に必要な計算時間・コストが少ない。 これまでの各機能をコンポーネント化して実装することで、タスクやロボットハードの変更・デバイスの追加などに応じて実装したシステムを容易に使いまわすことも可能である5


  1. Hiroshi Ito, Kenjiro Yamamoto, Hiroki Mori, and Tetsuya Ogata. Efficient multitask learning with an embodied predictive model for door opening and entry with whole-body control. Science Robotics, 7(65):eaax8177, 2022. 

  2. Kanata Suzuki, Momomi Kanamura, Yuki Suga, Hiroki Mori, and Tetsuya Ogata. In-air knotting of rope using dual-arm robot based on deep learning. In 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 6724–6731. IEEE, 2021. 

  3. Hideyuki Ichiwara, Hiroshi Ito, Kenjiro Yamamoto, Hiroki Mori, and Tetsuya Ogata. Contact-rich manipulation of a flexible object based on deep predictive learning using vision and tactility. In 2022 International Conference on Robotics and Automation (ICRA), 5375–5381. IEEE, 2022. 

  4. Pin-Chu Yang, Kazuma Sasaki, Kanata Suzuki, Kei Kase, Shigeki Sugano, and Tetsuya Ogata. Repeatable folding task by humanoid robot worker using deep learning. IEEE Robotics and Automation Letters, 2(2):397–403, 2016. 

  5. Momomi Kanamura, Kanata Suzuki, Yuki Suga, and Tetsuya Ogata. Development of a basic educational kit for robotic system with deep neural networks. Sensors, 21(11):3804, 2021.