Feb, 2019
基于策略相关的人类反馈的深度强化学习
Deep Reinforcement Learning from Policy-Dependent Human Feedback
Dilip Arumugam, Jun Ki Lee, Sophie Saskin, Michael L. Littman
TL;DR本研究在 COACH 算法基础上,对代理策略表达进行了修改,运用深度神经网络实现按照高维视觉输入完成任务的学习,并通过 Minecraft 中实时人类反馈,10-15 分钟即可完成任务。