May, 2020
音视频线索的更佳应用:基于双模变换器的密集视频字幕
A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer
Vladimir Iashin, Esa Rahtu
TL;DR本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。