Sep, 2023

超越逆向KL:通过多样的散度约束泛化直接偏好优化

TL;DR在人类意见反馈上的强化学习和多样化的分歧约束下,使大语言模型(LLMs)能够更高效地与人类偏好相一致,从而改善对齐性能。