研究强化学习与人类偏好的对齐方法
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为MORE的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明MORE相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
以表征工程为灵感,通过人类反馈实现对大型语言模型(LLMs)中高层人类偏好的相关表征的识别,并通过转变其表征来实现对模型行为的精确控制。RAHF方法在捕捉和操作表征方面表现出出色的效果,能够对齐各种人类偏好,显示了推进LLM性能的潜力。
Dec, 2023
我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。
Jan, 2024
我们提出了一种高效的精确优化方法(EXO),证明了它在与RL算法同向渐进地优化策略参数函数上是可保证的,并通过绕过与RL算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与DPO进行比较,并进一步展示了在现实人类偏好数据上我们方法的优势。
Feb, 2024
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
Feb, 2024
通过使用强化学习和直接偏好头的fine-tuning框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。
May, 2024
本研究针对大型语言模型在与人类偏好对齐方面的复杂性问题,提出了一种统一的研究框架,旨在增强对现有偏好对齐策略的理解。通过将现有策略分解为模型、数据、反馈和算法四个组成部分,研究展示了不同方法间的关联性,并提供了丰富的实例以帮助读者理解。同时,揭示了未来研究方向与挑战。
Sep, 2024
本论文针对大型语言模型(LLM)与人类偏好的对齐问题展开研究,指出现有研究方法多样且复杂,限制了偏好对齐的发展。我们提出了一种统一框架,将偏好学习的策略分解为模型、数据、反馈和算法四个组成部分,从而深入理解现有的对齐算法并探索未来的研究方向。
Sep, 2024
本研究针对大型语言模型(LLMs)与人类偏好对齐中的方法复杂性和研究分散性问题,提出了一种统一的框架,通过将现有的偏好学习策略分解为模型、数据、反馈和算法四个组件,深入分析现有的对齐算法。此研究不仅增进了对不同策略之间关系的理解,也为未来的研究提供了新的方向,促进了跨方法的优势互补。
Sep, 2024