Aug, 2024

无训练视频时间定位的基于大规模预训练模型的方法

TL;DR本研究解决了现有视频时间定位模型依赖特定数据集进行训练并普遍缺乏泛化能力的问题。提出的无训练视频时间定位方法通过利用大规模预训练模型的能力,分析查询文本中的多个子事件及其时间关系,使得该方法在零-shot视频时间定位任务上表现优越,并在跨数据集和OOD情境下展现出更好的泛化能力。