BriefGPT.xyz
Ask
alpha
关键词
open-ended dialogue
搜索结果 - 1
比较坏苹果和好橙子:通过联合偏好优化对齐大型语言模型
通过联合指导 - 回应偏好数据进行大型语言模型训练,使用 DOVE 目标函数优化,可以显著提高 LLM 的对齐效果,并在总结和开放式对话数据集上分别提高 5.2% 和 3.3% 胜率。
PDF
3 months ago
Prev
Next