无采样率依赖的通用音频分离
本研究介绍了自由普遍声音分离数据集(Free Universal Sound Separation,FUSS)及其应用的音频分离模型,使用改进的时域卷积网络(TDCN ++)作为基线模型。通过在由 357 类声音构成的单声源音频数据上生成多达四个的混合,模拟静态吸收和动态混响等情况,模型在信噪比和确定绝对信噪比等评估指标下获得了较好的分离效果,旨在在机器学习领域为声音分离的研究提供基线数据和常用的分离算法。
Nov, 2020
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
本文提出了一种高效的神经网络用于端到端通用音频源分离,使用了连续下采样和多分辨率特征重取样(SuDoRMRF)的骨干结构,以及通过简单的一维卷积来执行特征聚合,从而实现了高质量的音频源分离,同时具有受限的浮点运算、内存需求、参数数量和延迟。我们在语音和环境声音分离数据集上的实验表明,SuDoRMRF 可与多种需要更高计算资源的最先进方法相媲美,甚至表现更优越。
Jul, 2020
在混响条件下,提出了一种使用深度神经网络进行无监督语音分离的算法,通过多个麦克风同时收集到的语音混合信号计算线性滤波器,使得所有说话者的估计信号在所有麦克风中加起来等于混合信号。此算法需要使用超定训练混合物,并通过降低源内幅度分散的损失来解决频率置换问题。实验结果表明,该算法在混响条件下对两个说话者的分离效果较好。
May, 2023
本文提出了一种基于深度神经网络的源分离的两阶段训练方案,第一步学习将信号转换为使掩蔽分离性能最优的潜在空间,第二步训练在学习空间中操作的分离模块,并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验,该方法可以比联合学习变换和分离模块的系统获得更好的表现。
Oct, 2019
本文提出了一种基于波形神经网络的声源分离模型 SoundFilter,该模型可以通过无监督学习获得未知混合声源的信号,并使用配置编码器对任意声源进行过滤,同时在噪声数据集上取得了显著的性能提升,并成功地通过语音数据集对两位演讲者的混合语音进行了有效的分离。
Nov, 2020
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
Feb, 2020
通用音频源分离旨在分离任意混音的音频源,无需特定领域(如语音或音乐),但其潜力受到限制,因为大多数现有研究关注主要是声音事件的混音,并且较小的训练数据集也限制了其监督学习的潜力。在这里,我们研究了一种单一的通用音频源分离(GASS)模型,它在大规模数据集上以监督方式训练以分离语音、音乐和声音事件。我们对 GASS 模型进行了多样的任务评估。我们的强可分离性结果显示了 GASS 模型的可行性,声音事件和语音分离的竞争性跨领域性能表明了其泛化能力。然而,GASS 模型在电影和音乐内容的跨领域分离方面具有挑战性。我们还对每个数据集进行了 GASS 模型的微调,并在各自的基准测试中始终优于未经预训练的模型。除音乐分离外,所有微调模型均获得了其各自基准测试中的最先进结果。
Sep, 2023
本文提出了使用弱标签来训练源分离系统的目标函数和网络架构,使用声音事件分类器评估分离器的性能,并在城市环境中使用合成混合事件数据库对算法的性能进行了基准测试。
Nov, 2019