reward overoptimization | BriefGPT

关键词reward overoptimization

搜索结果 - 4

ICLR细调文本 - 图像模型的自信度感知奖励优化
使用人类反馈数据训练的奖励函数来微调文本到图像模型已被证明可以将模型行为与人类意图对齐。然而，过度优化这些奖励模型可能会损害微调模型的性能，这被称为奖励过度优化现象。为了深入研究这个问题，我们引入了 Text-Image Alignment
PDF3 months ago
LLM 对齐的贝叶斯奖励模型
为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过
PDF5 months ago
通过信息论奖励建模减轻奖励作弊
本研究通过引入变分信息瓶颈目标以过滤无关信息和开发模型复杂性调节机制，从信息论的角度解决了强化学习中奖励建模的问题，并通过对潜在空间中的异常值与过度优化之间的相关性进行了认识，提出了一种用于检测奖励过度优化的指标 Integrated Cl
PDF5 months ago
面对扩散模型中的奖励过优化：归纳和初要偏见的视角
通过引入时间感知、激活神经元重置的策略，我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题，实证结果表明其在缓解奖励过度优化方面具有显著的有效性。
PDF5 months ago