Aug, 2023

EPCFormer:用于通用参考视频目标分割的表达提示协作转换器

TL;DR基于音频和文本之间的语义等价理解和音频、文本、视频特征之间的深度交互,我们提出了一种基于表达协作 Transformer(EPCFormer)的通用架构,并引入了表达对齐机制和表达 - 视觉注意机制,以实现音频和文本对象之间的高准确定位和分割,从而在两个相关任务上取得了最新的结果。