Jul, 2023
利用文本条件特征对齐进行音频增强的文本到视频检索
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment
Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan...
TL;DR通过引入 TEFAL 方法,利用跨模态注意力机制实现了文本查询条件下的音频和视频表示,从而提高了文本到视频检索任务的性能。