May, 2020

音视频线索的更佳应用:基于双模变换器的密集视频字幕

TL;DR本文介绍了一种基于Transformer结构的双模态编码器,用于处理Dense Video Captioning任务,通过同时处理视频和音频两种输入,该模型在ActivityNet Captions数据集上取得了出色的性能表现。