BriefGPT.xyz
Ask
alpha
关键词
divergence constraints
搜索结果 - 1
超越逆向 KL:通过多样的散度约束泛化直接偏好优化
在人类意见反馈上的强化学习和多样化的分歧约束下,使大语言模型(LLMs)能够更高效地与人类偏好相一致,从而改善对齐性能。
PDF
9 months ago
Prev
Next