CVPRJun, 2022

用于多通道视频 - 语言检索的预训练对比模型的快速适应

TL;DR探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式,并发现用离散文本符号表示视频的方法取得最佳效果。