Aug, 2024
阶段划分的视觉与语言变换器编码器的交叉感知早期融合用于参考图像分割
Cross-aware Early Fusion with Stage-divided Vision and Language
Transformer Encoders for Referring Image Segmentation
TL;DR本研究解决了引用图像分割中复杂和模糊语言表达的理解及相关区域识别的挑战。提出了交叉感知早期融合框架,允许视觉和语言编码器在各阶段互相引用信息,从而增强跨模态上下文建模能力。实验表明,该方法在三个公共基准测试中都优于现有的最先进技术。