Aug, 2024
序列到序列奖励建模:通过语言反馈改善RLHF
Sequence to Sequence Reward Modeling: Improving RLHF by Language
Feedback
TL;DR本研究解决了大型语言模型(LLMs)与人类意图及价值观对齐的偏差问题,提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈,该方法在无需额外注释的情况下改进了强化学习(RLHF)的效果,实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象,并改善了文本摘要任务中的长响应偏倚。