MMJul, 2022

视频指称理解中的对话问题

TL;DR研究视频指代表达理解中的两个问题,提出了一种新颖的双重对应网络方法来增强帧间和跨模态的密集关联,以提高视频和图像 REC 基准测试的表现,并进行了全面的剖析研究。