Apr, 2024

ProTA:文本 - 视频检索的概率化令牌聚合

TL;DR提出 Probabilistic Token Aggregation (ProTA) 方法来处理内容不对称的跨模态交互,通过双重关联聚合、基于令牌的概率对齐和自适应对比损失,在 MSR-VTT、LSMDC 和 DiDeMo 数据集上取得显著改进。