BAPO:基于基准点偏好优化的大型语言模型个性化对齐
在线偏好优化(BPO)是一种特定的在线 DAP 算法,通过与行为语言模型(Behavior LLM)接近,在训练 LLM 的同时提高对人类参考文本的性能。
Jun, 2024
人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。
Nov, 2023
通过引入自我增强式优化(SAPO)方法,本研究提出了一种有效和可扩展的训练范式 —— 自我增强式偏好优化,不依赖于现有的配对数据,通过自我对弈生成负面响应,并结合离线对比基线和历史数据的实时反馈来动态更新响应段,从而匹配或超过现有离线对比的基线方法,如 Direct Preference Optimization 和 Odds Ratio Preference Optimization,同时优于离线自我对弈方法,如 SPIN。
May, 2024
提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法,通过选择能最大化质量和多样性的回应子集并对之进行偏好标注,将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上,比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。
May, 2024
通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式,我们提出了一种能够有效抑制预训练 LLM 偏见、提升对视觉输入的基础性的方法 ——Bootstrap Preference Optimization (BPO),通过构建偏好数据集并进行偏好学习来解决该偏见问题。广泛的实验表明,在多个基准测试中,我们的方法显著提升了性能,推动了多模态会话系统的发展。
Mar, 2024
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。
May, 2024
利用少量数据实现群体偏好优化的大型语言模型对齐框架,通过使用独立的 Transformer 模块预测群体对语言模型生成结果的偏好,并通过元学习训练多个群体的偏好,从而在大规模语言模型上实现更准确的对齐效果,同时减少了群体特定偏好、训练和推理计算资源的需求。
Oct, 2023
ROPO 是第一个提供噪声容忍保证的偏好对齐方法,通过动态分配激进梯度权重给具有高标签不确定性的回应对,有效地抑制噪声样本的梯度,保证了期望风险具有相同的梯度方向,实验证明 ROPO 显著优于现有的基于排名的方法。
Apr, 2024
本研究提出了一种新算法 APA,利用估计的优势建立基于平方误差损失函数的算法进行优化,证明在使用单独的奖励模型作为评估器时,APA 明显优于 PPO,并且在控制模型初始策略与改进性能之间提供更稳定的形式控制,避免了模式崩溃、不稳定性和样本效率低等问题。
Jun, 2023
对大型语言模型的优化进行了初步探索,为了使模型正确学习文本和结果之间的关系,提出了因果语言优化问题的形式化,开发了解决该问题的方法 —— 因果偏好优化(CPO),并扩展了双重稳健 CPO(DR-CPO),最后在困难的混淆条件下验证了 DR-CPO 对于直接结果数据上优化最先进的 LLMs 的有效性和鲁棒性。
Feb, 2024