Mar, 2024

加强多模式大型语言模型的启动式优化偏好

TL;DR通过利用歪曲图像输入和在原始回应中注入错误但常见元素的方式,我们提出了一种能够有效抑制预训练LLM偏见、提升对视觉输入的基础性的方法——Bootstrap Preference Optimization (BPO),通过构建偏好数据集并进行偏好学习来解决该偏见问题。广泛的实验表明,在多个基准测试中,我们的方法显著提升了性能,推动了多模态会话系统的发展。