Aug, 2024

阶段划分的视觉与语言变换器编码器的交叉感知早期融合用于参考图像分割

TL;DR本研究解决了引用图像分割中复杂和模糊语言表达的理解及相关区域识别的挑战。提出了交叉感知早期融合框架,允许视觉和语言编码器在各阶段互相引用信息,从而增强跨模态上下文建模能力。实验表明,该方法在三个公共基准测试中都优于现有的最先进技术。