BriefGPT.xyz
Ask
alpha
关键词
unconditional preference problem
搜索结果 - 1
mDPO: 多模态大型语言模型的条件偏好优化
通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出 mDPO,一种多模态 DPO 目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规
→
PDF
23 days ago
Prev
Next