ECCVJul, 2022

LocVTP: 视频文本预训练用于时间定位

TL;DR本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP,通过精细对比对齐和上下文感知等机制,提高了其学到的特征的时空推理能力和传递性,实现了在四个下游任务上的最优表现。