Apr, 2018

牛顿行动建议:将人类口头指导与强化学习相结合

TL;DR本文介绍了一种新的方法 Newtonian Action Advice,该方法结合了人类动作建议和强化学习以改善人 - 代理交互,并通过人类实验验证了其在 RL 指标和人因素指标方面优于现有算法 Policy Shaping。