群体偏好优化:大型语言模型的少样本对齐
利用新方法 Group Robust Preference Optimization (GRPO) 对大型语言模型进行重调优,通过考虑不同群体的特点和需求,显著提高了最差表现的群体的性能,减少了群体间的损失不平衡,提高了概率准确性。
May, 2024
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。
May, 2024
引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
离线偏好优化通过直接从离线数据微调大型模型,已在最近的对齐实践中证明了其有效性。我们提出了广义偏好优化(GPO),一种由一类凸函数参数化的离线损失函数家族。GPO 实现了对偏好优化的统一视角,包括现有的算法,如 DPO、IPO 和 SLiC 等特殊情况,同时自然地引入了新的变量。GPO 框架还揭示了离线算法如何通过定义损失的凸函数来实现正则化。我们的分析和实验揭示了离线正则化与规范化神经网络的 KL 散度正则化之间的联系和微妙区别。总之,我们的结果向对齐实践者呈现了新的算法工具和实证洞见。
Feb, 2024
通过黑盒提示优化(BPO)进行对齐,使得大型语言模型(LLMs)更好地遵循用户指令,以最佳方式实现用户意图,而无需更新 LLMs 的参数,并且 BPO 对齐的 ChatGPT 在胜率上比原始版本提高了 22%,GPT-4 提高了 10%。
Nov, 2023
对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐,但存在某些局限性。为了克服这些限制,本文提出了一种参数高效调优的对齐方法(MEET),通过改进控制标记的质量,在两个知名数据集上相比之前的方法明显提高了可控生成的质量。
Oct, 2023
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
大型语言模型在机器翻译方面表现出良好的性能,但是使用监督微调的方式仍存在一些问题,本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型,可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。
Jan, 2024
提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。
May, 2024