Apr, 2024

将社会选择理论映射到 RLHF

TL;DR使用强化学习从人类反馈中提取人类偏好以获得模型行为的研究的限制,引用社会选择理论作为参考点。我们分析社会选择与强化学习从人类反馈的问题设置,确定它们之间的关键差异,并讨论这些差异如何影响社会选择中众所周知的技术结果的 RLHF 解释。