Jun, 2024

在线 DPO:在线直接偏好优化与快慢追踪

TL;DR通过在线快慢追逐 DPO (OFS-DPO) 来优化大型语言模型(LLM)与人类价值观的一致性,通过引入 LoRA 模块组合策略和新的正则化项来解决跨领域的忘记问题。