Apr, 2024

令牌级直接优化偏好

TL;DR通过优化策略的 token 级别前向 KL 散度约束,引入了 Token-level Direct Preference Optimization(TDPO)一种在 human preferences 上对齐 LLMs 的新方法,提高了对齐性和多样性