Sep, 2021

多模态Transformer在视频锚定中的设计追求

TL;DR本篇论文提出了一种新型的端到端、多模态Transformer模型——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用Many-to-One匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。