Apr, 2023
VicTR: 视频条件的文本表示用于活动识别
VicTR: Video-conditioned Text Representations for Activity Recognition
Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo
TL;DR本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。