ACLJun, 2024

视频语言理解:模型架构、模型训练和数据视角的综述

TL;DR本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法,并进行了方法间的性能比较,提出了未来研究的有前景的方向。