Jul, 2024

重新思考视频文本理解:来自事实上增强数据的检索

TL;DR最近的视频文本基础模型在各种下游视频理解任务中展现了强大的性能。然而,标准的视频文本评估可能会误导,因为许多问题仅可以通过单帧中的对象和上下文或数据集固有的偏见推断出来。本文旨在更好地评估当前视频文本模型的能力并了解其局限性。我们提出了一项新颖的视频文本理解评估任务——根据对照增强数据进行检索(RCAD),并创建了一个新的Feint6K数据集。实验和分析表明,我们的方法成功地学到了更有区分性的动作嵌入,并在多个视频文本模型上改善了Feint6K的结果。