参数高效调整助于语言模型对齐
本文介绍了一种更高效的在线偏好调整数据探索策略(OPTune),通过动态采样信息丰富的响应来进行在线偏好对齐,从而加快了训练速度,同时仍保持标准偏好调整提供的指示遵循优势。
Jun, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
通过优化策略的 token 级别前向 KL 散度约束,引入了 Token-level Direct Preference Optimization(TDPO)一种在 human preferences 上对齐 LLMs 的新方法,提高了对齐性和多样性
Apr, 2024
对大型语言模型(LLM)的先前训练和参数微调的对齐方法进行了深入研究,研究了对齐数据集、对齐技术和模型对下游性能的影响,提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。
Jun, 2024
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法,该方法有效地注入了良好的行为并减轻了不理想的情况,鼓励模型忽略不合适的指令,从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。
Jan, 2024
通过使用强化学习和直接偏好头的 fine-tuning 框架,将预训练语言模型与人类偏好信号相结合,实现对模型输出的控制,并在各项评估中超越传统的有监督和直接偏好优化方法。
May, 2024