Oct, 2022

符号引导下基于事后先验的从人类偏好中学习奖励

TL;DR本文研究强化学习中的奖励函数的学习,提出了利用先验知识和偏好数据约束奖励函数的 PRIOR 框架,可以降低 50% 的反馈数量并提高奖励函数学习和代理性能。