Nov, 2024

补充自适应令牌级对比解码以减轻大规模视觉语言模型中的幻觉

TL;DR本研究针对大型视觉语言模型(LVLM)中的幻觉问题,该问题在医疗和自主系统等关键领域中造成严重风险。提出了一种新颖的方法——补充自适应令牌级对比解码(CATCH),通过视觉信息分离、幻觉检测和令牌级对比解码,显著减少了视觉缺陷和幻觉,提高了模型在视觉问答任务中的表现,并无需特定数据或训练,具有广泛的应用潜力。