Jul, 2023

利用文本条件特征对齐进行音频增强的文本到视频检索

TL;DR通过引入 TEFAL 方法,利用跨模态注意力机制实现了文本查询条件下的音频和视频表示,从而提高了文本到视频检索任务的性能。