CVPRMar, 2023

高效二维时间视频定位的文本 - 视觉指示

TL;DR本文研究了时空视频定位(TVG)的问题,提出了一种新的文本 - 视觉提示框架(TVP)来优化视频编码器和语言编码器,有效地加强交叉模态特征融合并提高了 TVG 的表现。