Sep, 2024

SimVG:一种简单的多模态解耦融合视觉定位框架

TL;DR本研究针对现有视觉定位方法在复杂文本表达下性能显著下降的问题,提出了一种新的变换器基础框架SimVG。通过解耦视觉-语言特征融合并引入额外的对象标记,该方法显著提高了视觉定位的效率和收敛速度,同时在多个基准测试上达成了新的最先进性能。