Jun, 2024

探索面向大型语言模型的偏好优化算法

TL;DR离线偏好优化是提升和控制大型语言模型输出质量的关键方法。我们通过 LLM 驱动的目标发现,自动发现新的最先进的偏好优化算法,无需人工干预。这导致了先前未知且表现良好的偏好优化算法的发现,其中表现最好的算法被称为 DiscoPOP,它是一种新的自适应混合逻辑和指数损失的算法。实验证明了 DiscoPOP 的最先进性能及其成功的迁移到保留任务。