CVPRApr, 2022

长时间视频的时间对齐网络

TL;DR本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。