Feb, 2019

基于策略相关的人类反馈的深度强化学习

TL;DR本研究在 COACH 算法基础上,对代理策略表达进行了修改,运用深度神经网络实现按照高维视觉输入完成任务的学习,并通过 Minecraft 中实时人类反馈,10-15 分钟即可完成任务。