应对声源分离中的特征不平衡
本研究提出一种扩展的Wave-U-Net模型,通过可变数量源的端到端音乐源分离方法,并在瓶颈处使用仪器标签进行乘性调节,从而提高了分离结果,在此基础上实现了其他类型的调节,如音视频源分离和得分通知源分离。
Nov, 2018
本文提出了使用弱标签来训练源分离系统的目标函数和网络架构,使用声音事件分类器评估分离器的性能,并在城市环境中使用合成混合事件数据库对算法的性能进行了基准测试。
Nov, 2019
本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型,分别使用单个视频帧,以音源类别作为分离过程的信息。在MUSIC数据集实验中,两个模型相比于几种基线方法获得了可比较或更好的性能。
Jul, 2020
提出一种将源分离和最先进的表示学习技术相结合的特征表示方法来优化计算机听觉(即机器听力),在一组挑战性的电子舞曲(EDM)数据集上训练深度可分离卷积神经网络,将其性能与操作源分离和标准光谱图的卷积神经网络进行比较,表明在有限数据环境下,源分离提高了分类性能。
Dec, 2020
我们提出了DAVIS,一种基于扩散模型的音频-视觉分离框架,通过生成的方式解决音频-视觉声源分离任务。与现有的判别方法相比,DAVIS利用生成性扩散模型和Separation U-Net从高斯噪声开始合成分离后的幅度,以实现在各种类别中高质量声音分离的目标。我们在特定领域的MUSIC数据集和开放领域的AVE数据集上将DAVIS与现有的最先进的判别式音频-视觉分离方法进行比较,结果表明DAVIS在分离质量方面优于其他方法,展示了我们的框架在处理音频-视觉源分离任务上的优势。
Jul, 2023
通用音频源分离旨在分离任意混音的音频源,无需特定领域(如语音或音乐),但其潜力受到限制,因为大多数现有研究关注主要是声音事件的混音,并且较小的训练数据集也限制了其监督学习的潜力。在这里,我们研究了一种单一的通用音频源分离(GASS)模型,它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对GASS模型进行了多样的任务评估。我们的强可分离性结果显示了GASS模型的可行性,声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而,GASS模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了GASS模型的微调,并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外,所有微调模型均获得了其各自基准测试中的最先进结果。
Sep, 2023
最近,音像分离方法利用两种模态间的自然同步来提高音频源分离性能。我们提出了一种名为SGN的新型语义分组网络,可以直接解开声音的个体语义并提取每个来源的高级语义信息。SGN通过可学习的声音类别标记将按类别聚合声源特征,然后通过这些聚合的语义特征将对应的音频源与混合物分离。我们在音乐和通用音频分离基准上进行了广泛的实验,结果表明我们的SGN明显优于以往仅使用音频方法和不使用额外视觉线索的音像模型。
Jul, 2024