Jun, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

TL;DR提出一种名为 BM-DETR 的背景感知时刻检测变压器模型,通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度,从而提高视频时刻检索(VMR)的效果和泛化能力。