BriefGPT.xyz
Ask
alpha
关键词
monotone transformation
搜索结果 - 1
对齐大型语言模型的奖励转换与合并
学习从偏好数据中获取奖励模型并将其用于更新语言模型是一种常见的调整语言模型与人的偏好一致性的方法。我们研究了在这种方法中出现的两个相关问题。首先,对于奖励模型的单调转换,是否有一种选择比其他选择更好?其次,我们经常希望将语言模型与多个属性对
→
PDF
5 months ago
Prev
Next