Mar, 2018

非抓取性操作的强化学习:从仿真到物理系统的转移

TL;DR本研究使用一种修改自然策略梯度算法的模型,通过模拟学习并训练,成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中,并证明使用多个模型训练可以使学习到的策略更加稳健,从而弥补了系统识别的困难。