BriefGPT.xyz
Ask
alpha
关键词
distributional preference learning
搜索结果 - 1
分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
通过分析人类的反馈学习中的偏好数据,我们发现隐藏背景信息可能导致一些反直觉的结果,从而引发强化学习算法的漏洞。为了减轻这些问题,我们引入了一种称为分布式偏好学习的方法,能够更好地考虑隐藏背景,并显著降低后续遭受攻击的概率。
PDF
7 months ago
Prev
Next