Nov, 2024

使用稀疏特征级约束的直接偏好优化

TL;DR本研究解决了大语言模型(LLM)与人类偏好对齐中的计算效率和训练不稳定性问题。提出的特征级约束偏好优化(FPO)方法通过引入特征级约束,利用预训练的稀疏自编码器(SAE),实现了高效和稳定的对齐。实验结果表明,FPO在赢率方面相对于最先进的基线实现了5.08%的绝对提升,同时大幅降低了计算成本,为高效可控的LLM对齐提供了有前景的解决方案。