ICCVApr, 2021

凝固的时间:一种用于端到端检索的联合视频和图像编码器

TL;DR本研究目标是视频文本检索 - 特别是一种联合嵌入,可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型,旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展,包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集,作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。