May, 2025

潜在偏好编码:通过离散潜在编码对大型语言模型进行对齐

TL;DR本研究解决了大型语言模型(LLMs)与人类偏好对齐的挑战,现有的偏好建模方法通常忽视了人类偏好的复杂性和多样性。我们提出了潜在偏好编码(LPC),该框架利用离散潜在编码自动推断数据中的隐性因素及其重要性,超越了传统的奖励函数依赖。实验表明,LPC在多项基准上优于现有对齐算法,并显著提升了对噪声数据的对齐鲁棒性,为更可靠的LLM对齐技术奠定基础。