自主驱动的语言模型从零开始的最小人工监督自我对齐
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
该研究提出了一种名为SALMON的新方法,使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型,实现了对基础语言模型的自动对齐,通过调整原则控制奖励模型的偏好,进而影响强化学习训练的策略的行为,消除了对在线人类偏好收集的依赖,其在各种基准数据集上显著超越了几种最先进的人工智能系统,包括LLaMA-2-Chat-70b,提高了监督效率、可控性和可扩展性。
Oct, 2023
通过CycleAlign框架,将白盒模型和黑盒模型在低资源情况下有效对齐,通过多次迭代相互作用,动态更新上下文演示,提高黑盒模型的偏好排序能力,实现与人类价值的最先进对齐性能。
Oct, 2023
基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习,而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法,通过一次推断步骤将语言模型与人类偏好对齐,消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进,使得能够按照差异约束条件提取最优策略,并直接估计对齐的回应。广泛的实验表明,线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。
Jan, 2024
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过Aligner的监督信号进行微调,进而应用于不同的开源和API-based模型。此外,Aligner提供了很大的性能提升,如对11种不同的LLMs平均提升18%的有用性和23%的无害性(GPT-4提升26.9%和17.5%),对Llama2-70B使用Aligner-7B的监督进行微调,可以提高Llama2的有用性8.2%和无害性61.6%。
Feb, 2024
使用SAMI方法,将预训练的语言模型教导遵循行为原则,无需任何偏好标签或示范,结果显示模型在单轮对话和摘要任务上优于初始预训练模型和指导微调模型,且能够在不使用偏好标签、示范或人工监督的情况下学会遵循定义。
Apr, 2024
通过自我引用的AI反馈框架,允许13B Llama2-Chat模型以“最适合人类”的原则为基准,对用户指令回应进行批判,从而提供高质量的偏好反馈,并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异,实验证明该方法使13B和70B Llama2-Chat注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。
Jun, 2024
本研究解决了大型语言模型(LLMs)在个性化对齐方面的评估问题,重点关注其处理用户提供的安全关键上下文的能力。通过分析十种主流模型在五种场景下的表现,发现即便是最优秀的“无害”模型,也在理解用户的特定需求时存在系统性不一致,表明需要更加细致和上下文敏感的对齐方法,以促进安全和体贴的人工智能助手的发展。
Oct, 2024