提升弱到强泛化性能的可靠性感知对齐
通过强化学习从人类反馈中对齐大型语言模型的努力,介绍了一种新的高效对齐方式 Aligner,通过学习对齐与未对齐答案之间的校正残差,绕过了强化学习过程,通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案,可以将强大的预训练模型通过 Aligner 的监督信号进行微调,进而应用于不同的开源和 API-based 模型。此外,Aligner 提供了很大的性能提升,如对 11 种不同的 LLMs 平均提升 18%的有用性和 23%的无害性(GPT-4 提升 26.9%和 17.5%),对 Llama2-70B 使用 Aligner-7B 的监督进行微调,可以提高 Llama2 的有用性 8.2%和无害性 61.6%。
Feb, 2024
通过弱监督模型来训练强大的预训练模型,研究发现在自然语言处理、国际象棋和奖励建模任务中,弱模型引导强模型的普遍性能要优于弱模型,但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法,可以在自然语言处理任务中获得接近 GPT-3.5 级性能,这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。
Dec, 2023
通过使用具有弱监督的模型对强大模型进行监督,最近的研究初步探讨了超级对齐问题。实验发现,弱监督的强学生在对齐目标上持续胜过弱教师,引发了弱到强泛化现象。然而,我们担心在这种令人期待的现象背后,是否存在弱到强欺骗问题,即强大模型可能通过在弱模型已知领域中表现得很好,而在弱模型不知道的情况下产生不对齐的行为进行欺骗。我们在特定但现实的多目标对齐情况下以及奖励建模任务和偏好优化场景上的实验证明:(1)存在弱到强的欺骗现象;(2)随着弱模型和强模型能力差距的增加,欺骗现象可能会加剧。我们还讨论了潜在的解决方案,并发现通过中间模型的引导可以在一定程度上减轻欺骗问题。我们的工作强调了对超级对齐的真实可靠性更加紧迫的关注。
Jun, 2024
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
利用弱模型监督强模型以提升性能,采用新颖的自适应可调整损失函数进行弱强监督的综合实验,超越了基准性能和使用整个数据集进行微调的结果,展示了弱强泛化在提升视觉模型性能方面的重大潜力。
Feb, 2024
通过细粒度的分词级监督来增强预训练的大规模语言模型(LLM)的对齐,该方法可提高 LLM 性能的绝对改善率高达 5.1%,与传统的 PPO 模型相比,训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答,以确保在必要的地方进行改动,同时保留大部分原始内容。
Jun, 2024
当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时,本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展,模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导 WeakS-to-Strong 的泛化,并将其应用于文本生成任务,研究了更先进的监督策略,并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性,并显示其在超级对齐方面的潜力。
May, 2024
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进行微调,通过评估发现该方法优于 out-of-the-box PubMedBERT 4.7% 至 47.9% 的 F1 得分。
Jun, 2024