BriefGPT.xyz
Ask
alpha
关键词
objective mismatch
搜索结果 - 1
对齐上界:从人类反馈中的强化学习目标不匹配
用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献
→
PDF
8 months ago
Prev
Next