Feb, 2024

COPR: 通过最佳策略规范实现连续人类偏好学习

TL;DR基于连续优化策略正则化(COPR)方法,该研究提出了一种从人类反馈进行强化学习的方法,用于改进大型语言模型与人类偏好的一致性,并通过使用抽样分布和正则化限制来克服连续学习中的挑战,防止历史偏好的灾难性遗忘,并在实验证明COPR在奖励评估、GPT-4评估和人类评估方面优于强对照模型,并在不同的连续学习设置下验证了COPR的鲁棒性。