Sep, 2023

学习跨模态关联性以用于有限样本的参照视频对象分割

TL;DR提出了一种基于Transformer架构的简单而有效的模型,该模型通过新设计的跨模态亲和力(CMA)模块在很少的样本上构建多模态亲和力,从而快速学习新的语义信息,并使模型可适应不同场景,为少样本的视频目标指代分割(FS-RVOS)问题提供了一种解决方案。在新建立的FS-RVOS基准上进行了广泛实验,结果显示我们的模型在只有少数样本的情况下能很好地适应不同场景,达到了基准上的最先进性能。