Dec, 2023

基于视觉语言变换器的新兴定位特性

TL;DR采用预训练的视觉 - 语言模型,并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制,可以实现无需微调的零样本开放词汇的目标定位,并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务和语义分割数据集上评估 GEM 框架,结果表明 GEM 不仅胜过其他无需训练的开放词汇定位方法,而且在最近提出的 OpenImagesV7 大规模分割基准测试中取得了最先进的结果。