BriefGPT.xyz
Ask
alpha
关键词
sampling policies
搜索结果 - 1
RRHF:无需痛苦排名回应,将语言模型与人类反馈对齐
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
PDF
a year ago
Prev
Next