Jun, 2022

面向文本到视频检索的语义角色感知相关性变换器

TL;DR该论文提出了一种新型的 Transformer 模型,将文本和视频显式分离,通过注意力机制了解三种角色的内部和内部角色之间的相关性,以在不同级别上寻找识别特征,初步结果表明,在所有的指标中,我们的方法都超过了当前最先进的方 法,在两个指标上也超过了两种最先进的方法。