Jun, 2024

自我改进的健壮偏好优化

TL;DR提出了一种完全适应任务变化的离线强化学习方法,称为自我改进的稳健偏好优化(SRPO),通过将问题表示为自我改进过程的极小极大目标,以敌对方式联合优化自我改进策略和生成策略,并通过标准的监督优化技术以大规模进行优化,而无需奖励模型和在线推断。实验证明SRPO在ODD XSUM数据集上的效果优于DPO,经过5次自我修订后,其AI获胜率(WR)达到90%,超过DPO 15%。