BriefGPT.xyz
Ask
alpha
关键词
human preference alignment
搜索结果 - 3
SPO:多维偏好顺序对齐与隐式奖励建模
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
PDF
2 months ago
ICDPO:通过上下文中的直接偏好优化有效地借用他人的对齐能力
通过重新思考 DPO 的推导过程,并基于此,借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器,从而提出了一种名为 ICDPO 的新方法,使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力,生成与前述瞬时评分器估计的
→
PDF
5 months ago
对抗性偏好优化
人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO),通过最小最大博弈的方式,使 LLM 代理和偏好模型交替更新,从而自适应地解决生成分布差异的问题,实验证明了 APO 在改善 LLM 的帮助性
→
PDF
8 months ago
Prev
Next