Feb, 2023

基于状态扩展的人类偏好强化学习方法

TL;DR本文提出了一种状态增强技术,利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持,并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。