BriefGPT.xyz
大模型
Ask
alpha
关键词
overoptimization
搜索结果 - 4
基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法
→
PDF
6 months ago
通过约束强化学习高斯过程避免奖励模型过度优化
使用约束强化学习方法解决复合奖励模型中过度优化问题,并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。
PDF
9 months ago
ICLR
奖励模型合集有助于缓解过度优化
使用集合基的保守优化目标,能够在强化学习中有效抑制频繁优化,提高性能。
PDF
9 months ago
分类好哈特定律的变体
本文探讨了利用指标来优化系统时可能导致系统失效或产生不良反应的不同机制,这种失效现象被称为 Goodhart's Law,对其进行的讨论对于更好理解这些类型的经济调节、公共政策、机器学习和人工智能对齐等方面的失败具有帮助,由于人工智能的优化
→
PDF
6 years ago
Prev
Next