Jan, 2023

时间感知的视频 - 语言预训练

TL;DR本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。