CVPRMar, 2020

多模态密集视频字幕

TL;DR本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型,并进行了深入的分析。