ICMLJul, 2023

基于评级的强化学习

TL;DR本文提出了一种新的基于评分的强化学习方法,利用人类评分来获取强化学习中的人类指导。该方法与现有的基于偏好和基于排名的强化学习范例不同,通过对样本轨迹的人类评估而非样本对的相对比较,基于人类评分构建了新的预测模型和新的多类损失函数。我们通过基于合成评分和真实人类评分的几个实验研究来评估新的基于评分的强化学习方法的有效性和益处。