Apr, 2023

VicTR: 视频条件的文本表示用于活动识别

TL;DR本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。