语义分组网络用于音频源分离
本文提出了一种共分离训练范式,可以从未标记的多源视频中学习对象级别的声音,通过新颖的训练目标,训练出深度神经网络的分离音频对于外观相似的对象具有一致性可识别的特性,从而在音频源分离和降噪方面获得了最先进的结果。
Apr, 2019
本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型,通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别,从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比,实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。
Apr, 2019
本篇论文提出了一种名为MinusPlus Network (MP-Net)的新型框架,用于视听分离任务。MP-Net按平均能量的顺序递归地分离声音,并将分离后的声音从混合物中移除,直到混合物为空或仅包含噪声。通过这种方式,MP-Net可以应用于具有任意数量和类型声音的混音中,并且相较于以前的方法取得了最先进的结果。
Aug, 2019
本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型,分别使用单个视频帧,以音源类别作为分离过程的信息。在MUSIC数据集实验中,两个模型相比于几种基线方法获得了可比较或更好的性能。
Jul, 2020
本文提出了一种基于Audio Visual Scene Graph Segmenter (AVSGS)的深度学习模型,通过嵌入场景的视觉结构,并将其分割为子图,实现音频源分离;同时,介绍了一个全新的数据集Audio Separation in the Wild (ASIW),证明了该方法在音源分离方面的卓越表现。
Sep, 2021
本论文提出了一种参数高效且有效的音频-视觉预测编码方法,该方法使用ResNet-based视频分析网络和声音分离网络提取音频特征,融合多模态信息并在同一体系结构中预测声音分离掩码来交替地最小化特征之间的预测误差,同时还开发了有效的自监督学习策略。
Jun, 2023
我们提出了DAVIS,一种基于扩散模型的音频-视觉分离框架,通过生成的方式解决音频-视觉声源分离任务。与现有的判别方法相比,DAVIS利用生成性扩散模型和Separation U-Net从高斯噪声开始合成分离后的幅度,以实现在各种类别中高质量声音分离的目标。我们在特定领域的MUSIC数据集和开放领域的AVE数据集上将DAVIS与现有的最先进的判别式音频-视觉分离方法进行比较,结果表明DAVIS在分离质量方面优于其他方法,展示了我们的框架在处理音频-视觉源分离任务上的优势。
Jul, 2023
通用音频源分离旨在分离任意混音的音频源,无需特定领域(如语音或音乐),但其潜力受到限制,因为大多数现有研究关注主要是声音事件的混音,并且较小的训练数据集也限制了其监督学习的潜力。在这里,我们研究了一种单一的通用音频源分离(GASS)模型,它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对GASS模型进行了多样的任务评估。我们的强可分离性结果显示了GASS模型的可行性,声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而,GASS模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了GASS模型的微调,并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外,所有微调模型均获得了其各自基准测试中的最先进结果。
Sep, 2023