BriefGPT.xyz
Ask
alpha
关键词
helpsteer2
搜索结果 - 1
HelpSteer2: 用于训练最佳奖励模型的开源数据集
通过使用 HelpSteer2 进行训练,我们提出了 SteerLM 2.0 模型对齐方法,能够有效利用我们的奖励模型预测的多属性分数,从而在对齐大型语言模型方面取得了 92.0% 的最新成果。
PDF
24 days ago
Prev
Next