BriefGPT.xyz
Ask
alpha
关键词
uncertainty-penalized rlhf
搜索结果 - 1
基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法
→
PDF
6 months ago
Prev
Next