Dec, 2023
分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF
Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell
TL;DR通过分析人类的反馈学习中的偏好数据,我们发现隐藏背景信息可能导致一些反直觉的结果,从而引发强化学习算法的漏洞。为了减轻这些问题,我们引入了一种称为分布式偏好学习的方法,能够更好地考虑隐藏背景,并显著降低后续遭受攻击的概率。