Mar, 2025
通过放大镜:用于无幻觉VLM解码的自适应感知放大
Through the Magnifying Glass: Adaptive Perception Magnification for
Hallucination-Free VLM Decoding
TL;DR本文探讨了现有视觉语言模型(VLM)中存在的视觉幻觉问题,该问题导致生成的响应与视觉输入不符。我们提出了一种新颖的视觉解码方法——感知放大器(PM),它通过迭代隔离相关视觉标记并放大相应区域,从而增强模型的细致视觉分析能力,提升了语言生成的准确性和合理性。