Feb, 2025
视觉注意力从未消退:多模态大型语言模型中用于详细图像字幕的选择性渐进注意力重新校准
Visual Attention Never Fades: Selective Progressive Attention
ReCalibration for Detailed Image Captioning in Multimodal Large Language
Models
TL;DR本研究针对多模态大型语言模型(MLLMs)在详细图像字幕生成中面临的准确性与召回率平衡的挑战,提出了一种新的训练无关方法SPARC(选择性渐进注意力重新校准)。SPARC通过选择性增强关键视觉元素的贡献,在提高精确度和召回率的同时,保持了较低的计算开销,显著提升了图像字幕的质量。