Jul, 2024

直接优化偏好的新准则

TL;DR基于直接偏好优化(DPO)本身存在未解决的缺陷,此研究提出一种代替的DPO损失函数,以缓解低质量响应和约束处理方面的权衡问题,并通过实证结果验证了分析的重要方面。