MMApr, 2022
基于常识的快速视频时间对齐细节文本对齐学习
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding
Ziyue Wu, Junyu Gao, Shucheng Huang, Changsheng Xu
TL;DR本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。