音频视觉预测编码引导的声源分离

Jun, 2023

音频视觉预测编码引导的声源分离

Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding

Zengjie Song, Zhaoxiang Zhang

TL;DR本论文提出了一种参数高效且有效的音频 - 视觉预测编码方法，该方法使用 ResNet-based 视频分析网络和声音分离网络提取音频特征，融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差，同时还开发了有效的自监督学习策略。

Abstract

The framework of visually-guided sound source separation generally consists of three parts: visual feature extraction, multimodal feature fusion, and sound signal processing. An ongoing trend in this field has been to tailor involved visual feature extractor for informative visual guid

visually-guided sound source separation audio-visual predictive coding resnet-based video analysis network predictive coding-based sound separation network self-supervised learning strategy

发现论文，激发创造

一种统一的音视频学习框架：局部化、分离与识别

该研究提出了一种名为 OneAVM 的联合学习框架，该框架可以用于音频 - 视频源定位、分离和识别任务，其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练，包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验，证明了 OneAVM 的有效性，并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

May, 2023

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

利用分类信息进行单帧视觉声源分离

本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在 MUSIC 数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Jul, 2020

利用自监督运动表示进行视觉引导的声源分离和定位

本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Apr, 2021

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络，利用窄频和交叉频带建模

添加视觉线索到基于音频的语音分离可以提高分离性能。本文介绍了一种名为 AV-CrossNet 的音视系统，用于语音增强、目标说话人提取和多说话人分离。AV-CrossNet 扩展自 CrossNet 架构，它是一种最近提出的网络，通过利用全局注意力和位置编码来执行复杂的频谱映射以进行语音分离。为了有效利用视觉线索，该系统结合了预先提取的视觉嵌入并采用了由时间卷积层组成的视觉编码器。音频和视觉特征在早期融合层中融合后馈送到 AV-CrossNet 块。我们使用多个数据集对 AV-CrossNet 进行评估，包括 LRS、VoxCeleb 和 COG-MHEAR 挑战。评估结果表明，AV-CrossNet 在所有音视任务上推动了最先进的性能，即使在未经训练和不匹配的数据集上也是如此。

Jun, 2024

渐进自信遮罩注意力网络用于音频 - 视觉分割

通过引入渐进自信掩蔽注意力网络（PMCANet），利用注意机制揭示音频信号和视觉帧之间的内在相关性，并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明，我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。

Jun, 2024

通用的视听情景感知音频分离中的隐形声音分离

该论文介绍了一种名为 “音频 - 视觉场景感知分离”（AVSA-Sep）的新框架，通过语义解析器和基于场景的分离器，成功分离了可见和不可见声音，并通过联合训练和跨模态对齐提高了效果。

Oct, 2023

视觉对象声音的分离

本文提出了一种共分离训练范式，可以从未标记的多源视频中学习对象级别的声音，通过新颖的训练目标，训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性，从而在音频源分离和降噪方面获得了最先进的结果。

Apr, 2019

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020