BriefGPT.xyz
Mar, 2020
多模态密集视频字幕
Multi-modal Dense Video Captioning
HTML
PDF
Vladimir Iashin, Esa Rahtu
TL;DR
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的Transformer体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在ActivityNet Captions数据集上测试了他们的模型,并进行了深入的分析。
Abstract
dense video captioning
is a task of localizing interesting events from an untrimmed video and producing textual description (captions) for each localized event. Most of the previous works in
dense video captioning
→