提出了一种名为 DeAL 的框架,通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标,弥补模型训练中的残缺缺陷,并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。
Feb, 2024
通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。
May, 2024
对减少语言模型中的错误和偏见,与人类偏好进行对齐至关重要。我们提出解码时重新对齐(DeRa)的简单方法,用于探索和评估不同的规则化强度,从而在不重新训练的情况下实现对齐模型的规则化强度的控制,并提高超参数调优的效率。
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
Mar, 2024
对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐,但存在某些局限性。为了克服这些限制,本文提出了一种参数高效调优的对齐方法(MEET),通过改进控制标记的质量,在两个知名数据集上相比之前的方法明显提高了可控生成的质量。
Oct, 2023
通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络,我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现,并接近更大的 Nemotron-4 340B 奖励模型的性能。
Jun, 2024
通过使用合成数据训练可调整的模型,我们提出了一种解耦大型语言模型和对齐过程的方法,以确保其在大多数应用中的安全性和实用性,并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。
对大型语言模型(LLM)的先前训练和参数微调的对齐方法进行了深入研究,研究了对齐数据集、对齐技术和模型对下游性能的影响,提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。
分布偏好奖励模型(DPRM)是一个简单而有效的框架,通过将最大语言模型(LLM)与多样化的人类偏好对齐,以提高对人群偏好的代表性。
多目标解码算法(MOD)通过线性组合基础模型的预测结果,在不同目标权重下输出下一个标记,实现语言模型(LMs)对多样用户需求的适应性优化,实验证明其在奖励改进和有害性减少方面具有显著效果。