Nov, 2023

CLIP 能帮助声源定位吗?

TL;DR利用大规模预训练的图像 - 文本模型对声源定位进行了扩展,通过音频信号与图像的对应关系,生成音频驱动的嵌入向量,以此对提供的音频生成驱动遮罩,并提取高亮区域的音频驱动图像特征,并与音频驱动的嵌入向量进行对齐,实现声音对象的更完整和更紧凑的定位图。广泛实验证明,该方法在表现上优于最先进的方法。