ICCVSep, 2023

In-Style: 文本与未编辑视频之间的风格迁移用于文本 - 视频检索

TL;DR在没有手工标注的配对数据的情况下,提出了一种使用未经整理和未配对数据进行文本 - 视频检索的新设置,该方法通过学习文本查询的样式并将其传输到未经整理的网络视频来解决这个问题。通过引入多样式对比训练程序,提高了模型在多个数据集上的泛化能力,并在零样本文本 - 视频检索方面改进了最先进的性能。