ACLJun, 2024
视频语言理解:模型架构、模型训练和数据视角的综述
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives
Thong Nguyen, Yi Bin, Junbin Xiao, Leigang Qu, Yicong Li...
TL;DR本文综述了视频 - 语言理解系统的关键任务、相关挑战以及模型架构、模型训练和数据观点等方面的方法,并进行了方法间的性能比较,提出了未来研究的有前景的方向。