Mar, 2023

使用 CLIP 引导的视觉文本注意力进行视频问答

TL;DR本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取,并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息,将特征集成用于迁移学习,结果表明这种方法优于现有的最先进方法。