Jun, 2021

具有因果干预的视频时刻检索

TL;DR该研究提出了一种基于因果关系的视频时刻检索框架,利用Deconfounded Cross-modal Matching(DCM)方法去除时刻位置的混淆效应,并在考虑所有可能的目标位置的情况下,公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。