Dec, 2023

分布式偏好学习:理解并考虑 RLHF 中的隐藏语境

TL;DR通过分析人类的反馈学习中的偏好数据,我们发现隐藏背景信息可能导致一些反直觉的结果,从而引发强化学习算法的漏洞。为了减轻这些问题,我们引入了一种称为分布式偏好学习的方法,能够更好地考虑隐藏背景,并显著降低后续遭受攻击的概率。