从弱到强的外推加速对准
使用 RoPE 为基础的大型语言模型,通过调整基值和微调文本长度能够显著增强其外推性能,本文提出了从周期性角度描述外推性能与基值及调整文本长度之间关系的统一框架,并解释了外推问题的起源和关键维度,同时在 LLaMA2 7B 和 13B 数据集上实现了高达 100 万上下文长度的外推。
Oct, 2023
通过建立语言间的语义对齐,提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力,并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%,在汉语人文任务上超过英语模型 8.2%。同时发现,使用非英语文本作为翻译数据的目标端特别有效,且随着翻译任务数据规模的扩大,语言模型内部的语义对齐能够进一步加强。
Aug, 2023
我们提出了一种高效的精确优化方法 (EXO),证明了它在与 RL 算法同向渐进地优化策略参数函数上是可保证的,并通过绕过与 RL 算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与 DPO 进行比较,并进一步展示了在现实人类偏好数据上我们方法的优势。
Feb, 2024
大型语言模型在机器翻译方面表现出良好的性能,但是使用监督微调的方式仍存在一些问题,本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型,可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。
Jan, 2024
我们提出了软偏好优化(SPO)方法,它能够使生成模型(如大型语言模型 LLMs)与人类偏好对齐,无需奖励模型。SPO 通过一种自然损失函数,在整个模型的输出分布中最大程度地优化模型输出,包括偏好损失和正则化项。虽然 SPO 不需要假设现有的基础奖励模型,但我们证明,在布拉德利 - 特里(BT)模型的假设下,它收敛于缩放奖励的 softmax,通过调整 softmax 指数,可以调节分布的 “软度”。我们展示了 SPO 的方法论、其理论基础以及在简单性、计算效率和对齐精度方面的比较优势。
Apr, 2024
强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索,通过鼓励模型产生多样化、最具信息量的回应,充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO(Exploratory Preference Optimization),它通过引入新颖而且有原则的探索奖励来增强 DPO 目标,使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看,我们证明了 XPO 具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面,我们发现 XPO 在初步评估中比非探索性 DPO 变体具有更高的样本效率。
May, 2024
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析 RLHF 和 DPO 的稳定性和鲁棒性,我们提出了一种新方法 MPO(混合偏好优化),该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程:首先在一个简单的数据集上对 DPO 进行训练,然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行,即 HH-RLHF 和 TLDR,展示了 MPO 的有效性,无论是在 GPT4 上还是人类评估上。
Mar, 2024
我们开发了一种新技术来减轻强偏好问题,通过将原始指令集产生一个弱化版本的提示并从弱化的提示中推断模型如何继续执行一个假设加强的指令集,我们将语言模型概念化为混合模型,并对 GPT-2、GPT-3、Llama 2 和 Mistral 等模型进行了应用,在四个任务中找到了 41/44 的改进,在所有 44 个组合中,完成任务比例的中值增加了 40%。
Jan, 2024
如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。
May, 2024
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
May, 2024