Jun, 2022

揭示视频及语言学习中的单帧偏差

TL;DR本文探讨了视频与语言学习中基于单帧的模型的应用,结果表明在大规模预训练条件下,采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳,并且作者提出了两个基于现有细粒度动作识别数据集的检索任务,以便更全面地评估视频与语言模型。