关键词offline preference optimization
搜索结果 - 3
- 探索面向大型语言模型的偏好优化算法
离线偏好优化是提升和控制大型语言模型输出质量的关键方法。我们通过 LLM 驱动的目标发现,自动发现新的最先进的偏好优化算法,无需人工干预。这导致了先前未知且表现良好的偏好优化算法的发现,其中表现最好的算法被称为 DiscoPOP,它是一种新 - 自博弈对抗评论家:可证明和可扩展的离线对齐语言模型
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规 - 广义偏好优化:一种离线对齐的统一方法
离线偏好优化通过直接从离线数据微调大型模型,已在最近的对齐实践中证明了其有效性。我们提出了广义偏好优化(GPO),一种由一类凸函数参数化的离线损失函数家族。GPO 实现了对偏好优化的统一视角,包括现有的算法,如 DPO、IPO 和 SLiC