MMApr, 2022

基于常识的快速视频时间对齐细节文本对齐学习

TL;DR本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。