Jan, 2024

PHOENIX: 开源的语言适应直接偏好优化

TL;DR使用最新的改进,应用直接偏好优化(DPO)方法于德语,建立在大语言模型的基础上,探索了语言模型的转移学习、架构改进和直接偏好优化等研究领域。