May, 2024

指令引导下的视觉遮罩化

TL;DR通过引入指导型视觉遮罩(IVM)来改进多模式指令跟踪,本研究在多模式设置下证明了 IVM 的适用性,并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩,IVM 增强的多模式模型能够更好地关注与任务相关的图像区域,从而取得更好的指令跟踪表现。实验结果表明,IVM 作为一种即插即用工具,显著提升了多样化的多模式模型性能,在各种复杂多模式基准上取得了新的最佳结果。