Feb, 2024

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

TL;DR通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。