Oct, 2016

可调步态控制器的学习和迁移

TL;DR研究一种新的架构和训练程序,通过训练简单的任务,以高频率、低层次的“脊髓”网络与本体感觉运动神经元进行学习。这个预训练模块通过修正脊髓网络的输入来驱动行为,从而使学习从稀疏的奖励中得到有效的探索。在三种虚拟体内(16维游泳蛇、20维四足动物和54维人形),通过我们提出的架构进行测试并产生了明显的进展,详见附带的视频