Jun, 2016

使用Actor-Critic强化学习训练机器人代理人时进行同时控制和人类反馈

TL;DR该研究探索一种使用人类提供的同时人类控制和反馈信号来训练一个强化学习机器人代理的方法,并旨在缩小用户控制方法和控制的机器人数量之间的差距。作者采用物理和模拟机器人系统的实验比较了在环境中获得奖励、由人类提供奖励以及这两种方法的组合下的训练表现,结果表明人类反馈可以提高代理的训练效果。