Nov, 2022

通过奖励编码环境动态性来提高基于偏好的强化学习

TL;DR本研究使用包含环境动态信息的REED方法,压缩了preference-based RL架构中需要从人获得的喜好标签数量,进而提升策略的学习速度和最终表现。