基于奖励引导的搜索的 ARGS 对齐
我们介绍了 ALaRM,这是第一个模拟强化学习中的分层奖励的框架,旨在增强大型语言模型与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励相结合,解决了当前对齐方法的局限性,从而更准确、一致地引导语言模型朝着期望的结果发展,特别是在复杂和开放的文本生成任务中。通过采用基于一致性过滤和组合多个奖励的方法,该框架提供了一种可靠的机制来改善模型的对齐。我们通过在长篇问答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较,并证明了与现有基线方法相比的改进效果。我们的工作强调了分层奖励建模在改善语言模型训练过程中对人类偏好一致性的有效性。我们在此 URL 上发布了我们的代码。
Mar, 2024
提出了一种名为 DeAL 的框架,通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标,弥补模型训练中的残缺缺陷,并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。
Feb, 2024
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式 Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过 Aligner 的监督信号进行微调,进而应用于不同的开源和 API-based 模型。此外,Aligner 提供了很大的性能提升,如对 11 种不同的 LLMs 平均提升 18%的有用性和 23%的无害性(GPT-4 提升 26.9%和 17.5%),对 Llama2-70B 使用 Aligner-7B 的监督进行微调,可以提高 Llama2 的有用性 8.2%和无害性 61.6%。
Feb, 2024
通过使用较小的模型,引入一种模型不可知且轻量级的贝叶斯说服对齐框架,为对齐黑盒大模型提供高效方法。在使用该框架进行训练后,希望我们的工作能够提供从贝叶斯说服的视角重新审视对齐框架的初步步骤,并取得优于先前模型的性能提升。
May, 2024
对减少语言模型中的错误和偏见,与人类偏好进行对齐至关重要。我们提出解码时重新对齐(DeRa)的简单方法,用于探索和评估不同的规则化强度,从而在不重新训练的情况下实现对齐模型的规则化强度的控制,并提高超参数调优的效率。
Feb, 2024
研究提出了 SELF-ALIGN 方法,利用少量人工监督和结合原理驱动推理和 LLM 的生成能力,实现 AI 助手的自我对齐,减少人工监督的依赖,获得更好的性能,开发了 Dromedary AI 助手。
May, 2023
通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败,因此该研究提出了一种名为 MORE 的新的训练策略,通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观,实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。
Dec, 2023
该研究提出了一种名为 SALMON 的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括 LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。
Oct, 2023
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023