Oct, 2023

超越一种偏好适用于所有情况:多目标直接偏好优化

TL;DR多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比 MORLHF 更少 3 倍的计算资源。