BriefGPT.xyz
Ask
alpha
关键词
optimal transportation-based loss
搜索结果 - 1
通过分布偏好奖励建模对齐群体反馈
分布偏好奖励模型(DPRM)是一个简单而有效的框架,通过将最大语言模型(LLM)与多样化的人类偏好对齐,以提高对人群偏好的代表性。
PDF
5 months ago
Prev
Next