Apr, 2024

正则化的最佳 N 抽样以减轻语言模型对齐中的奖励欺骗

TL;DR本研究提出了一种名为正则化最佳 - n (RBoN) 的策略,通过在响应选择中加入相似性项来减少奖励欺骗问题,并评估了其在 AlpacaFarm 数据集上的表现,发现它们在代理奖励模型与真实目标的相关性较低时优于最佳 - n (BoN)。