T-VSL: 混合环境下的文本引导视听源定位

CVPRApr, 2024

T-VSL: 混合环境下的文本引导视听源定位

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

Tanvir Mahmud, Yapeng Tian, Diana Marculescu

TL;DR我们提出了一种利用 Tri-modal joint embedding 模型通过文本模态作为中间特征引导，在多源混合中分离语义音视源对应关系的 T-VSL 框架，该方法在训练期间通过预测混合中声音实体的类来引导细粒度的音视源对应关系的分离，展现了在测试期间对未见过的类别具有有希望的零 - shot 迁移能力。在 MUSIC、VGGSound 和 VGGSound-Instruments 数据集上的大量实验证明了该方法相对于最先进方法的显著性能提升。

Abstract

visual sound source localization poses a significant challenge in identifying the semantic region of each sounding source within a video. Existing self-supervised and weakly supervised source localization methods struggle to accurately distinguish the semantic regions of each sounding

visual sound source localization self-supervised methods weakly supervised methods tri-modal joint embedding models zero-shot transferability

发现论文，激发创造

简单实现的视觉声音定位

本文提出了一种名为 EZ-VSL 的简单而有效的无监督音频 - 视觉源定位方法，旨在识别视频中的可见声源，其采用对齐音频和视觉空间的方法来实现，在 Flickr SoundNet 和 VGG-Sound Source 数据集上均取得了良好的表现，特别是在 CIoU 方面从 76.80% 提高到了 83.94%。

Mar, 2022

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

弱监督音视频来源定位的深入探究

本文提出了一种新的视听源定位方法，通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。

Aug, 2022

用于混音声源定位的音视频分组网络

本文提出了一种 AVGN 网络，通过可学习的音频 - 视觉类别权重直接学习每个音频源的语义特征，可以同时定位多个音频源，达到了先进的音响目标定位效果。

Mar, 2023

混合声音源的本地化

我们提出了一种同时定位视觉场景中多个声源的方法，使用 Jabri 等人的对比随机漫步所启发的模型，并结合了视听相似性度量，能够较好地解决声音混合的分离与声音和视觉信号的联合问题，实验结果表明该模型在定位多个声源方面优于其他自监督方法。

Nov, 2022

艰难的方式本地化视觉音效

本文主要讲述了如何通过训练神经网络来定位视频中可见的声源，采用对图像难样本强化学习的方法以提升定位精度。同时，作者还介绍了一个新的数据集 VGG-Sound Source benchmark，并展示了该算法在其上的最先进性能。

Apr, 2021

音频视觉空间融合与递归注意力的稳健声源定位

提出了一种音频 - 视觉空间整合网络，利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为，并引入了递归注意网络来递归地专注于对象，从而形成更准确的注意区域，通过利用音频 - 视觉模态的空间线索和递归地关注对象，我们的方法可以实现更稳健的声源定位，全面的实验结果表明了该方法优于现有方法。

Aug, 2023

CLIP 能帮助声源定位吗？

利用大规模预训练的图像 - 文本模型对声源定位进行了扩展，通过音频信号与图像的对应关系，生成音频驱动的嵌入向量，以此对提供的音频生成驱动遮罩，并提取高亮区域的音频驱动图像特征，并与音频驱动的嵌入向量进行对齐，实现声音对象的更完整和更紧凑的定位图。广泛实验证明，该方法在表现上优于最先进的方法。

Nov, 2023

声源定位是关于跨模态对齐的全部内容

我们提出了一个跨模态对齐任务作为声源定位的联合任务，以更好地学习音频和视觉模态之间的交互，并在声源定位和跨模态检索方面超越了现有的方法，从而实现了较高的定位性能和强大的跨模态语义理解。

Sep, 2023

学习在视觉场景中定位声源

本文提出一种新颖的无监督学习算法，可以通过观察声音和视觉场景对来仅仅聚焦声音源，在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.

Mar, 2018