Jan, 2024

线性对齐:无需调整和反馈的人类偏好对齐的闭式解法

TL;DR基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习,而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法,通过一次推断步骤将语言模型与人类偏好对齐,消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进,使得能够按照差异约束条件提取最优策略,并直接估计对齐的回应。广泛的实验表明,线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。