发出声音的物体
提出了一种音频 - 视觉空间整合网络,利用音频和视觉模态的空间线索来模仿人类在检测制造声音的对象时的行为,并引入了递归注意网络来递归地专注于对象,从而形成更准确的注意区域,通过利用音频 - 视觉模态的空间线索和递归地关注对象,我们的方法可以实现更稳健的声源定位,全面的实验结果表明了该方法优于现有方法。
Aug, 2023
本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型,并通过注意力定位和分组声源,光流聚合信息等方式提高了模型的准确度。实验表明,本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务,同时,使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。
Aug, 2020
该研究提出了一种名为 OneAVM 的联合学习框架,该框架可以用于音频 - 视频源定位、分离和识别任务,其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练,包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验,证明了 OneAVM 的有效性,并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。
May, 2023
探索了音视频流之间对应关系,并提出了利用该信息实现的自我监督视听学习任务,结果表明该方法成功解决了问题,并展现出良好的视听表征,可以将其应用于声音分类、物体定位和细粒度识别任务。
May, 2017
该论文提出了一种新的跨模态嵌入学习策略,通过多路匹配问题学习嵌入,显著提升了音频到视频同步任务的表现,并用学习到的嵌入进行自我监督的视觉语音识别。
Sep, 2018
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。
Apr, 2018
本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型,通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别,从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比,实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。
Apr, 2019
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
我们提出了一种基于音频查询的 Transformer 架构 (AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息,实验结果证明我们的方法在两个 AVS 基准测试集上取得了最先进的性能,尤其在 MS3 设置上取得了 7.1% 的 M_J 增益和 7.6% 的 M_F 增益。
Sep, 2023