ICLROct, 2020

支持集瓶颈用于视频 - 文本表示学习

TL;DR本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法,以确保表征不过度特化于个别样本,可以在数据集中重复使用,并且结果表明,相对于噪声对比学习,我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频 - 文本检索性能。