May, 2020

音视频线索的更佳应用:基于双模变换器的密集视频字幕

TL;DR本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。