BriefGPT.xyz
大模型
Ask
alpha
关键词
reward over-optimization
搜索结果 - 4
正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型
基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。
PDF
20 days ago
直接对齐算法中奖励模型过度优化的尺度规律
通过大量实证实验,本研究对于直接对齐算法的奖励过度优化或者篡改问题进行了形式化,并探讨了在目标、训练方式和模型规模等方面的相关影响。
PDF
a month ago
应用示范引导强化学习来对抗 LLM 中的奖励过度优化
利用人类示范和奖励模型重新校准奖励目标,通过最小化示范与语言模型的奖励之间的距离来避免对语言模型的奖励模型进行操纵和促进更自然、多样化的语言生成。
PDF
2 months ago
通过轻量级不确定性估计的对抗策略优化克服奖励过度优化
引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法,通过对奖励模型的不确定性进行量化,并通过分布鲁棒优化处理奖励模型的置信区间,从而增强性能。
PDF
4 months ago
Prev
Next