BriefGPT.xyz
Ask
alpha
关键词
kl regularization
搜索结果 - 4
WARP: 关于加权平均奖励策略的好处
使用人类反馈进行强化学习的 WARP 方法,在保持预训练知识的同时优化奖励函数,经过迭代逐渐改进 KL - 奖励的权衡,提升了 GEMMA 策略的质量和对齐度。
PDF
12 days ago
应用示范引导强化学习来对抗 LLM 中的奖励过度优化
利用人类示范和奖励模型重新校准奖励目标,通过最小化示范与语言模型的奖励之间的距离来避免对语言模型的奖励模型进行操纵和促进更自然、多样化的语言生成。
PDF
2 months ago
基于不确定性惩罚的多样化奖励 LoRA 集成的人类反馈强化学习
强化学习来自人类反馈(RLHF)作为一种有前途的方法,用于与大型语言模型(LLMs)对齐。然而,RLHF 中一个显著的挑战是过度优化,即在超过某个阈值后,追求更高的奖励会导致人类偏好的下降。为了减轻这个局限性,我们检视了现有 RLHF 方法
→
PDF
6 months ago
DPOK: 用强化学习对文本到图像扩散模型进行微调
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
PDF
a year ago
Prev
Next