Oct, 2024

解析和编辑视觉语言表示以减轻幻觉

TL;DR本研究解决了视觉语言模型(VLMs)中长期存在的幻觉问题,提出了一种通过线性正交化图像特征与幻觉对象特征的方法。研究表明,针对模型潜在表示进行有针对性的编辑,可以在保持性能的同时,将幻觉减少多达25.7%。该工作深入理解了VLMs的潜在表示,提升了可靠性并启用了新能力,如零-shot分割。