- 超越对齐:针对大型语言模型的原子偏好增强的真实性调整
该研究针对大型语言模型在事实性上出现的错误回应现象,通过偏好学习方法对模型进行微调以提升事实性,并提出了 APEFT 框架,通过加强模型对个体事实的认识,提高了模型在不同数据集上的表现,平均提升了 3.45%。
- 大型语言模型人类偏好学习综述
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐 LLMs 的评估。
- 正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型
基于规则模型的泛化能力有限,而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力,并有效减轻强化学习反馈中的过优化问题。
- PLUM: 偏好学习加测试用例产生更好的代码语言模型
PLUM 是一个增加了针对代码 LM 的测试用例的偏好学习框架,它通过三个阶段的实验表明,PLUM 显著提高了现有代码 LM 在代码生成任务中的性能,并与监督微调阶段相互协作产生协同效应。
- Diffusion-RPO:通过相对偏好优化对齐扩散模型
Diffusion-RPO 是一种新的方法,旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标,即风格对齐,旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明,Diff - 用自动生成的偏好数据对齐大型语言模型
通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据,我们提出了一种新的框架,可以显著增强大型语言模型的对齐性能,进一步提取模型的内在偏好。
- 蒙特卡洛树搜索通过迭代偏好学习提高推理能力
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验 - CVPR探索人类偏好的文本生成动作
该论文探讨了在文本到动作生成中的首选学习,指出当前的文本到动作生成仍依赖于需要具备专业知识的数据集和动作捕捉系统;而从人类偏好数据学习则不需要动作捕捉系统,只需没有专业知识的标注人员比较两个生成的动作。我们提供了 3,528 个由 Moti - 推进具有偏好树的 LLM 推理通才
Eurus 是一套针对推理进行优化的大型语言模型,通过基于 Mistral-7B 和 CodeLlama-70B 的微调,在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比,Eurus - 从视觉演示中学习偏好概念
该研究论文介绍了偏好学习的问题,通过视觉输入学习用户特定偏好,并提出了一种名为 Synapse 的新框架,通过神经符号方法从有限的演示中高效学习首选概念。通过广泛的实验证明,Synapse 在现有基准以及自身的修改版本上表现出色,特别针对机 - 利用高斯过程从偏好和选择中学习的教程
通过理解个体的偏好和选择方式,构建能够与其预期十分匹配的产品,并将经济学、决策理论原则融入学习过程中,本文提出了一种以高斯过程为基础的偏好学习模型的完整框架,并介绍了一些用于填补现有文献中空白的新颖基于高斯过程的模型。
- 基于语言模型的贝叶斯偏好引导
将 AI 系统与用户的兴趣相协调需要理解和融入人类复杂的价值观和偏好。我们介绍了一个名为 OPEN 的框架,它利用贝叶斯最优实验设计(BOED)指导选择信息丰富的问题,并利用语言模型(LM)提取特征和将抽象的 BOED 查询转化为自然语言问 - CURATRON:大型语言模型鲁棒对齐的完备偏好数据
通过偏好学习与重新校准数值来解决大型语言模型与人类价值观对齐的挑战,特别关注在偏好数据集中处理不完整和损坏数据的问题,并提出了一种鲁棒且完全重新校准数据集数值的新方法,采用保证多项式时间的排名算法,主要针对经典的 Bradley-Terry - 自适应偏好引导下的成本适应型补救推荐
该论文提出了一种将偏好学习整合到追索生成问题中的两步方法,通过设计问答框架来逐步细化追索主体的马氏矩阵代价的置信集,然后利用基于梯度和基于图的代价自适应追索方法来生成合法且考虑到整个代价矩阵的高效追索,数值评估结果表明该方法在提供高效追索建 - 推广奖励建模以进行超出分布的偏好学习
通过元学习方法,优化一个通用奖励模型来解决离群分布概率学习问题,并在两个文本生成任务中的 20 个保留领域的实验中,通过各种评估指标超过一系列强基准。
- 采用 RLHF 推进翻译偏好建模:迈向经济高效的解决方案
利用加强学习与人类反馈(RLHF)来改善机器翻译的质量,通过优化奖励模型区分人工和机器翻译,实验结果表明 RLHF 可以有效提升翻译质量,并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。
- 奖励模型学习的偏好污染攻击
从两两比较中学习效用模型或奖励模型是许多应用领域的基础组成部分。我们通过攻击算法的两类不同方法,系统地研究了恶意攻击者通过改变偏好比较数据来达到其目的的潜在性与效果,发现最佳攻击通常能在污染数据仅占 0.3% 情况下取得 100% 的成功率 - 偏好作为奖励,通过重要性采样进行最大偏好优化
这篇论文介绍了一种重要的技术 —— 偏好学习,其中 Reinforcement Learning from Human Feedback(RLHF)是一种优化偏好学习的模型算法,通过对偏好得分建立奖励模型并优化生成策略;为了提高数据效率和稳 - 分布式偏好学习:理解并考虑 RLHF 中的隐藏语境
通过分析人类的反馈学习中的偏好数据,我们发现隐藏背景信息可能导致一些反直觉的结果,从而引发强化学习算法的漏洞。为了减轻这些问题,我们引入了一种称为分布式偏好学习的方法,能够更好地考虑隐藏背景,并显著降低后续遭受攻击的概率。
- ULMA:统一语言模型对齐与演示与逐点人类偏好
发展了一种称为点对点 DPO 的偏好学习方法,该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足,并提供了同时处理人类演示和点对点优先数据的统一框架。