Mar, 2024

无参考单块偏好优化与胜负比率

TL;DR优先对齐算法、受监督的微调 (SFT)、单体化比值偏好优化算法 (ORPO)、最新的语言模型和模型检查点