Apr, 2019

无需奖励工程的端到端机器人强化学习

TL;DR本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需1-4个小时与实际世界进行交互。