Nov, 2021

众包数据的批量强化学习

TL;DR通过从偏好中学习奖励函数,本文解决了批量强化学习设置中缺乏奖励的问题,并提出了一种新的概率模型来建模标签的可靠性,利用协作的标签来平滑估计。在 Atari 数据集上的评估证明了所提出的模型的有效性,并进行了消融研究以分析所提出的想法的相对重要性。