Apr, 2024
ProTA:文本 - 视频检索的概率化令牌聚合
ProTA: Probabilistic Token Aggregation for Text-Video Retrieval
Han Fang, Xianghao Zang, Chao Ban, Zerun Feng, Lanxiang Zhou...
TL;DR提出 Probabilistic Token Aggregation (ProTA) 方法来处理内容不对称的跨模态交互,通过双重关联聚合、基于令牌的概率对齐和自适应对比损失,在 MSR-VTT、LSMDC 和 DiDeMo 数据集上取得显著改进。