EMNLPSep, 2021

多模态 Transformer 在视频锚定中的设计追求

TL;DR本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用 Many-to-One 匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。