May, 2024

多层次偏好自动化技术在 MLLM 中的应用

TL;DR通过采用多级偏好(例如优秀、中等、较差)取代二元偏好,我们提出了一种基于增强学习从人类反馈中引导多模态大型语言模型学习优质响应、避免生成错误响应的方案,并设计了自动化多级偏好框架(AMP)、多级直接偏好优化算法(MDPO)以及错觉基准测试 MRHal-Bench,实验证明了我们提出的方法的有效性。