Apr, 2024

约束语言模型策略优化的逐步对齐

TL;DR这篇论文提出了一种基于大型语言模型(LLMs)的人类价值对齐作为语言模型策略优化问题的方法,以在安全约束下最大化奖励,并提出了一种名为SACPO的算法。通过直接优化偏好方法等简单而强大的对齐算法,SACPO可以逐步对齐LLMs与每个度量标准,并在算法和数据集选择方面提供了简单性、稳定性、计算效率和灵活性。在温和假设下,我们的理论分析提供了近似最优性和安全约束违反的上界。实验结果表明,SACPO在有益性和无害性方面可以比最先进的方法更好地调整Alpaca-7B。