Apr, 2024

了解您的参考模型以实现良好对齐

TL;DR通过引入 Trust Region DPO 方法,我们提出了一种新的对齐方法来改善模型的质量,通过在训练过程中更新参考策略,我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。