CVPRNov, 2021

视频字幕的分层模块化网络

TL;DR本文提出了一种分层的模块化网络来连接视频表示和语言语义,从实体级别、谓词级别和句子级别三个层次生成视频字幕,并在 MSVD 和 MSR-VTT 基准测试中表现优异。