Mar, 2024

MetaAligner: 通用多目标语言模型对齐的条件弱到强校正

TL;DR大型语言模型最新的研究进展着重于通过多目标偏好对齐来解决异质人类期望和价值的问题。然而,现有方法对策略模型具有参数黏着性,导致两个主要限制:(1)对每个新的目标模型,其对齐算法的高成本重复使用;(2)它们不能扩展到未知的目标,因为其静态对齐目标。在这项工作中,我们提出了元目标对齐器(MetaAligner),这是一种执行从弱响应到强响应的有条件强化修正的模型。MetaAligner 是第一个对策略不依赖和通用化的多目标偏好对齐方法,通过将参数更新与政策模型分离,实现了即插即用的对齐,并通过上下文学习实现了对未知目标的零样本偏好对齐。实验结果表明,MetaAligner 在 11 个策略模型上实现了显著且平衡的多目标对齐改进,其中有多达 63 倍的参数,并且比以往的对齐方法需要少达 22.27 倍的计算资源。该模型还准确地与未知目标对齐,标志着通用多目标偏好对齐的第一步。