English
EIPL: Embodied Intelligence with
Deep Predictive Learning

伊藤 洋
尾形 哲也
早稲田大学
[Paper]
[Documentation]
[GitHub Code]



概要

深層学習を用いた学習型アプローチは環境認識と動作生成をEnd-to-Endに学習することで、特徴量設計コストを削減しながら、多様な状況に汎化していくことが期待されている。 しかしながら、学習データの収集コストが課題であり、物理的な接触を伴うロボットの試行錯誤には時間と人的リソースが必要不可欠である。 上記の課題を解決するために我々は、予測モデルの不完全性を前提とし、実世界の状況とモデルの予測誤差を最小化する動作学習コンセプトである「深層予測学習」を提唱する。 深層予測学習は、生体が実世界と脳の予測誤差が最小となるように振る舞うことを説明する自由エネルギー原理と予測符号化理論を参考に開発されている。 ロボットは感覚運動情報に基づき近未来の状況を予測し、現実との誤差を最小とするようにモデルを学習する。 結果として、ロボットは学習時と現実の差を許容しながらリアルタイムに動作を調整し、未学習の状況下でも柔軟に作業を実行することが可能である。 また、モデルに埋め込まれた動作ダイナミクスを組み合わせながら、幅広いタスク動作を実現することが期待される。 本論文では、深層予測学習の概念、実装方法、更に実ロボットへの適用事例について述べる。


深層予測学習


深層予測学習は学習データの収集、学習、動作生成の3フェーズから構成される。 データ収集フェーズでは、遠隔操作やダイレクトティーチングなどを用いて、実世界でロボットが作業を経験したときの感覚運動情報を時系列データとして保存する。 学習フェーズでは、現在と次時刻の感覚運動情報の予測誤差が最小になるようにモデルを学習する。 具体的には、現在のロボット状態(\(i_t, s_t\))をモデルに入力し、 次ステップのロボットの予測状態(\(\hat{i}_{t+1}, \hat{s}_{t+1}\))と 真値(\(i_{i+1}, s_{i+1}\))が一致するように学習する。 動作生成フェーズでは、ロボットの感覚運動情報からリアルタイムに近未来の感覚と運動を予測する。 ロボットは感覚運動情報に基づいて近未来の状況を予測し、現実との誤差(ギャップ)を最小にするようにロボットの各関節を制御する。 ロボットは学習時と現実の差を許容しながらリアルタイムに動作を調整し続けることで、未学習の状況下でも柔軟に作業可能である。


適用事例動画



ソースコード

本ソースコードとドキュメントを参照することで、データ収集から動作生成モデルの学習、解析までを体系的に学ぶことが可能である。ドキュメントには安価なロボットアーム OpenManipulatorと、多自由度ヒューマノイドロボットAIRECを例に解説しているが、ロボット身体情報のパラメータ(例えば、関節自由度やカメラ画像の解像度)を適切に設定すれば、多様なロボットへ適用することが可能である。 また下図は、物体把持動作をロボットに学習させたときの注意機構付き動作生成モデルの推論結果を示しており、左から入力画像と注意点、予測画像、予測関節角度、そしてRNNの内部状態である。 各図の意味や可視化解析方法はドキュメントに記載しいるため参照されたい。


[Documentation]
[GitHub Code]


BibTeX

@misc{suzuki2023deep,
  author    = {Kanata Suzuki and Hiroshi Ito and Tatsuro Yamada and Kei Kase and Tetsuya Ogata},
  title     = {Deep Predictive Learning : Motion Learning Concept inspired by Cognitive Robotics}, 
  booktitle = {arXiv preprint arXiv:2306.14714},
  year      = {2023}, 
}


謝辞

また成果は、JST ムーンショット型研究開発事業(JPMJMS2031)、JST ACT-X(JPMJAX190I)、また日立製作所の支援を受けたものです。 本論文を執筆するにあたり、出井勇人氏より貴重な意見を多数を頂きました。ここに感謝の意を表します。