ACLApr, 2021

基于视频的神经模块网络 (VGNMN) 应用于视频 - 语言任务

TL;DR本论文提出了 Video-grounded Neural Module Network (VGNMN) 用于建模视频数据的信息提取过程,并在视频场景下的对话任务和视频问答基准测试上展示了良好的性能表现。