Mar, 2025

透过放大镜:无幻觉的视觉语言模型解码的自适应感知放大

TL;DR本研究旨在解决现有视觉语言模型在解码过程中常出现的视觉幻觉问题。提出了一种新颖的视觉解码方法——感知放大器(PM),该方法通过迭代选择相关的视觉标记并放大相应区域,显著提高了解码过程中的视觉细节关注度。实验结果表明,PM不仅有效减少了幻觉现象,还增强了语言生成能力,同时保持了强大的推理能力。