Mar, 2020

多模态密集视频字幕

TL;DR本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的Transformer体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在ActivityNet Captions数据集上测试了他们的模型,并进行了深入的分析。