Jun, 2020

使用解释和上下文感知的数据增强扩大人类引导的强化学习管道

TL;DR本文研究如何将人类知识融入深度加强学习中,并提出 EXPAND 方法,在五项任务中展示出用于处理人类知识的可行性,该方法显着优于仅利用评估反馈的基线方法和来自监督学习的人类解释的方法。