Jul, 2024

$β$-DPO:动态$β$的直接偏好优化

TL;DR通过动态更新beta值和优化数据质量,改进了直接偏好优化方法(DPO)在训练大型语言模型(Large Language Models, LLMs)时的性能。