Jun, 2024

ScanFormer: 迭代扫描式指代表达理解

TL;DR该研究论文提出了一种名为ScanFormer的粗粒度到细粒度迭代感知框架,通过利用图像尺度金字塔从上到下提取与语言相关的视觉路径,排除与语言无关的冗余视觉区域以提高模型的效率,并在相关数据集上验证了该方法的准确性和效率的平衡。