Nov, 2023

超越幻觉:通过幻觉感知的直接偏好优化增强 LVLMs

TL;DR这篇论文提出了一个新的策略:幻觉感知直接偏好优化(HA-DPO),通过训练模型在给定同一图像的两个回应(一个准确一个幻觉)时倾向于选择非幻觉回应,从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明,在应用 HA-DPO 策略后,MiniGPT-4 模型的性能得到了显著提升。