Jun, 2020

视频理解作为机器翻译

TL;DR本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。