本文提出了一种新的视听源定位方法,通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。
Aug, 2022
本文主要讲述了如何通过训练神经网络来定位视频中可见的声源,采用对图像难样本强化学习的方法以提升定位精度。同时,作者还介绍了一个新的数据集 VGG-Sound Source benchmark,并展示了该算法在其上的最先进性能。
Apr, 2021
本文提出一种新颖的无监督学习算法,可以通过观察声音和视觉场景对来仅仅聚焦声音源,在仅仅几个监督的情况下可以有效地纠正错误的结论并定位声音源.
Mar, 2018
我们提出了一种利用 Tri-modal joint embedding 模型通过文本模态作为中间特征引导,在多源混合中分离语义音视源对应关系的 T-VSL 框架,该方法在训练期间通过预测混合中声音实体的类来引导细粒度的音视源对应关系的分离,展现了在测试期间对未见过的类别具有有希望的零 - shot 迁移能力。在 MUSIC、VGGSound 和 VGGSound-Instruments 数据集上的大量实验证明了该方法相对于最先进方法的显著性能提升。
Apr, 2024
本项研究提出一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并针对该算法所存在的误差问题通过半监督学习进行修正,从而增强了算法的可靠性和泛化性。
Nov, 2019
我们开发了一个基于视听学习框架的两阶段音频可视定位方法来解决在自然生动的视频中需要定位多个声音源的问题,该方法能够有效地将声音与特定的视觉来源进行对齐。
Jul, 2020
本文提出了自监督预测学习 (SSPL) 方法,通过显式正样本挖掘以实现声音定位,将声音来源与视频帧的两个增强视图相结合,并引入了预测编码模块以帮助 SSPL 逐步聚焦目标对象和有效降低正向对难度。实验结果表明,SSPL 在两个标准的声音定位基准测试中优于现有最佳方法,在 SoundNet-Flickr 上将 cIoU 和 AUC 分别提高了 8.6%和 3.4%。
Mar, 2022
本文提出了一种无需数据注释的迭代对比学习框架,用于声音定位任务,在图像中预测的定位结果和从音频信号中推断的语义关系被用作伪标签,并通过迭代策略逐渐促进声源的定位。实验结果表明,该框架在声音定位任务上表现良好,优于现有的无监督和弱监督方法。
提出了一种音频 - 视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为,并引入了递归注意网络来递归地专注于对象,从而形成更准确的注意区域,通过利用音频 - 视觉模态的空间线索和递归地关注对象,我们的方法可以实现更稳健的声源定位,全面的实验结果表明了该方法优于现有方法。
Aug, 2023
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020