ICCVAug, 2023

多事件视频文本检索

TL;DR本研究介绍了多事件视频 - 文本检索(MeVTR)任务,旨在解决视频内容通常包含多个事件,而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever,它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明,这个简单的框架在视频到文本和文本到视频任务中胜过其他模型,为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。