Mar, 2025

鲁棒多目标控制解码的大型语言模型

TL;DR本研究解决了在测试时将大型语言模型(LLMs)对齐人类偏好的问题,提出了一种新的鲁棒多目标解码算法(RMOD),优化最坏情况奖励。通过将解码问题形式化为一个纳什平衡的两个参与者游戏,RMOD在控制计算开销的同时,实现了与多个目标的公平对齐,实验证明该方法的有效性在多个基准上提升高达20%。