BriefGPT.xyz
大模型
Ask
alpha
关键词
preference datasets
搜索结果 - 3
HelpSteer2: 用于训练最佳奖励模型的开源数据集
通过使用 HelpSteer2 进行训练,我们提出了 SteerLM 2.0 模型对齐方法,能够有效利用我们的奖励模型预测的多属性分数,从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
PDF
22 days ago
Hummer: 朝着有限竞争偏好数据集的方向
引入了一种新的统计度量指标,即 Alignment Dimension Conflict,用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集,并开发了 HummerRM 和 Hummer
→
PDF
a month ago
理解与人类反馈一致性的学习动态
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
PDF
3 months ago
Prev
Next