EMNLPOct, 2022

面向模态的视频语料库时刻检索的伪查询生成

TL;DR本文提出了一种基于自监督学习的框架,通过生成基于视觉和文本信息的伪查询,利用多模式信息来定位视频片段,有效地解决了视频中存在的时序动态和多模式推理问题,并在实验中取得了竞争性的结果。