BriefGPT.xyz
Ask
alpha
关键词
reward collapse
搜索结果 - 2
连续时间扩散模型的熵正则控制微调
通过以预训练扩散模型为基础,直接优化熵增强奖励函数的神经 SDE,我们提出了一种解决奖励陷入崩溃问题的框架,理论和实证证据表明该框架能够高效生成具有高真实奖励的多样样本,并减少对不完美奖励模型的过度优化。
PDF
4 months ago
对齐大型语言模型中奖励崩溃的研究
本研究旨在解决大型语言模型训练时出现的奖惩分布坍塌问题,提出了一种基于 Prompt-Aware 优化方案的解决方法,使得奖惩可以更好地区分不同的问句。
PDF
a year ago
Prev
Next