May, 2024

基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答

TL;DR本文提出了一种新的基于 CLIP 的目标感知单流网络 (TASS) 用于音视频问答,通过模型预训练的图像文本匹配知识实现视听匹配特性,包括目标感知的空间定位模块 (TSG+) 和单流联合时间定位模块 (JTG),通过交叉模态同步损失 (CMS) 延伸了图像文本知识到音频文本匹配,实验证明了该方法在音视频问答上优于现有的最先进方法。