提升弱到强泛化性能的可靠性感知对齐
综述了大型语言模型对齐技术的全面概述,包括数据收集、训练方法和模型评估,并提供了未来研究方向的启示,是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。
Jul, 2023
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过Aligner的监督信号进行微调,进而应用于不同的开源和API-based模型。此外,Aligner提供了很大的性能提升,如对11种不同的LLMs平均提升18%的有用性和23%的无害性(GPT-4提升26.9%和17.5%),对Llama2-70B使用Aligner-7B的监督进行微调,可以提高Llama2的有用性8.2%和无害性61.6%。
Feb, 2024
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了WeakS-to-Strong的扩展,模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导WeakS-to-Strong的泛化,并将其应用于文本生成任务,研究了更先进的监督策略,并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性,并显示其在超级对齐方面的潜力。
May, 2024
本研究针对大型语言模型(LLM)在对齐方面的挑战,提出了一种利用弱LLM的创新方法。实验结果显示,弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈,揭示了模型规模对反馈有效性影响的最小化,从而为可扩展和可持续的对齐策略提供了新视角。
Sep, 2024
本研究解决了大型语言模型(LLMs)在缺乏黄金标签时面临的能力限制问题。提出的“从零到强的泛化”新范式,通过迭代提示LLMs对未标注数据进行注释并保留高质量标签,显著提升了模型在下游任务上的表现。实验结果表明,该方法对多种模型尺寸、上下文学习及微调均有效。
Sep, 2024
本研究聚焦于如何提升多个大规模语言模型(LLMs)的集体能力,以创建更强的模型,解决了人工智能对齐中的弱到强(w2s)泛化问题。我们提出了一种基于AdaBoost的集成方法,通过不同时任务上训练的弱模型指导在复杂任务上表现更强的模型,实验结果显示该方法在分类和生成任务上均超越现有基准,提升幅度高达14%。
Oct, 2024
本研究针对大型语言模型(LLMs)对人类价值的对齐问题,强调现有方法在实际对齐任务下的不足。作者提出将弱到强的生成扩展至实际对齐任务,并通过实证研究表明这一现象在安全性、毒性和法律推理三项复杂任务中的广泛存在,旨在提高模型输出的质量和对齐性能。
Oct, 2024