Apr, 2025
跨图像编织上下文:通过聚焦中心视觉链改善视觉-语言模型
Weaving Context Across Images: Improving Vision-Language Models through
Focus-Centric Visual Chains
TL;DR本研究解决了视觉-语言模型在处理复杂多图像输入时的性能下降问题。我们提出了一种新颖的聚焦中心视觉链范式,通过聚焦中心数据合成方法生成高质量的数据,构建了一个专为多图像任务设计的大规模数据集VISC-150K。实验结果表明,该方法在不同模型架构上平均提高性能3.16%和2.24%,推动了视觉-语言系统在复杂视觉场景下的能力提升。