Feb, 2025

HPS:人类偏好对齐的严格偏好采样

TL;DR本研究针对大型语言模型(LLM)响应与人类偏好对齐中的挑战,提出了一种新的框架“严格偏好采样”(HPS),以提高人类偏好对齐的鲁棒性和效率。HPS通过引入重视最受欢迎的响应的训练损失,并对损害性和不受欢迎的响应进行拒绝,显著降低计算成本,实验结果显示其在生成有害内容方面的降低效果显著。