Aug, 2024

基于变分偏好学习的人类反馈个性化强化学习

TL;DR本研究解决了现有强化学习人类反馈(RLHF)方法无法处理个体偏好差异的问题。我们提出了一种新颖的多模态RLHF方法,通过推断用户特定的潜在变量来定制奖励模型和策略,实现个性化学习。实验证明,该方法在不同用户群体中有效提高了奖励函数的准确性,并在处理不确定性和积极学习用户偏好方面表现出显著优势。