Jun, 2024

AGLA:借助全局和局部注意力组合,缓解大型视觉语言模型中的物体幻觉

TL;DR通过研究大型视觉语言模型(LVLMs),本论文确定了对象幻觉的一个根本原因是对辨别性局部图像特征的注意力不足。基于此,我们提出了全局和局部注意力组装(AGLA)方法,该方法通过同时探索用于响应生成的全局特征和用于视觉辨别的局部特征,从而减轻对象幻觉。大量实验证明,AGLA 方法能够一致地减轻对象幻觉并提高 LVLM 在各种辨别性和生成性基准任务中的感知能力。