BriefGPT.xyz
大模型
Ask
alpha
关键词
diverse human preferences
搜索结果 - 1
MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐
通过使用期望最大化算法,学习一种偏好分布的混合,以及基于社会选择理论中的平等原则提出一种最大最小对齐目标,提高代表多样化人类偏好的能力,并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。
PDF
5 months ago
Prev
Next