无需人工反馈的强化学习在大型语言模型最后一公里微调中的应用
本文提出了一种新的方法,将预训练的语言模型同时用作策略、奖励函数和转移函数,从而实现了奖励学习和语言模型微调的联合和直接处理,并通过处理认知不确定性来实现高效探索。
May, 2023
本文提出了一种称为DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的RLHF方法,DPO不仅表现更好,而且更加稳定和简单。
May, 2023
RFT中存在梯度消失问题,通过实验和理论分析,表明小奖励标准差导致梯度消失是普遍和不利的,而对初始监督微调阶段的常见做法是最有前景的候选方法,此阶段可以是计算和数据标注工作方面较为经济的较少步骤,对成功执行RFT至关重要。
Oct, 2023
我们通过建立一个顺序决策框架,利用示范数据集来对齐大型语言模型(LLMs),并介绍了各种减小LLM对齐任务中差异的方法,分析了这些方法的覆盖率和寻求主模式的行为,以及传统监督微调方法的优势和劣势。
Mar, 2024
通过使用单轨迹数据集,本研究提出了DRO(Direct Reward Optimization)框架和相关算法,无需配对偏好数据,采用简单的均方误差目标函数实现。使用T5编码器-解码器语言模型进行实证验证,证实了DRO相对于KTO等基准模型在单轨迹策略优化方面的性能优势。
May, 2024
强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索,通过鼓励模型产生多样化、最具信息量的回应,充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法XPO(Exploratory Preference Optimization),它通过引入新颖而且有原则的探索奖励来增强DPO目标,使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看,我们证明了XPO具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面,我们发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。
May, 2024
本研究解决了现有的大语言模型对齐方法依赖复杂技术和样本效率低下的问题。我们提出的逆Q*框架通过直接优化模型回应的条件最优策略,实现了标记级强化学习的创新,减少了对人工注释的依赖。实验结果表明,逆Q*在收敛速度和模型回应对齐人类偏好的效果上,甚至可能超过传统方法PPO,具有广泛的应用潜力。
Aug, 2024
本研究解决了在大语言模型对齐中传统强化学习方法复杂性过高和样本效率低的问题。提出的逆向Q*框架优化了令牌级强化学习,通过直接从模型响应中估计条件最佳策略,减少了对人类注释和外部监督的依赖。研究结果表明,逆向Q*在收敛速度和对齐有效性上可能超过了传统的PPO方法,为大语言模型的高效训练提供了切实可行的解决方案。
Aug, 2024
本研究解决了传统模仿学习在预训练和监督微调阶段的局限,提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展,研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能,使逆强化学习成为微调大语言模型的有力替代方案。
Sep, 2024