- HarmonICA:神经非稳态校正与运动神经元界面的源分离
使用无监督学习算法解决非平稳效应对信号源分离过程的影响,提出了一种名为 HarmonICA 的设计,能够在实验和真实记录中,盲目补偿与每种记录特定的非平稳效应,从而显著提高源分离过程的质量。
- 文本条件下音乐扩散模型的广义多源推理
该论文将多源扩散模型推广到任意时域扩散模型,基于文本嵌入来训练这些模型,实现了有机的音乐生成和声音分离,且在松散数据设置下展示出竞争力的生成和分离结果。
- 音源分离基于潜在变分分块解缠
混合经典数字信号处理 / 深度神经网络的方法用于源分离任务,通过设计合理的潜在空间,将单通道欠定的源分离问题转化为等效的多通道过定的问题,并使用变分块间分离表征混合信号,通过经典信号处理理论结果的启发,提出可靠性更强、过拟合风险降低的模型。
- 三维重建房间的新颖视角声学合成
探究结合盲音频录音和 3D 场景信息对新视角声学合成的益处。通过 2-4 个麦克风的音频录音和包含多个未知声源的场景的 3D 几何学和材料,估计场景中的任何声音。我们确定了新视角声学合成的主要挑战,即声源定位、分离和去混响。虽然简单地训练端 - 应对声源分离中的特征不平衡
神经网络常常存在特征偏好问题,而忽视了对任务而言至关重要的其他特征。本文提出了一种名为 FEABASE(特征平衡通过抑制易特征)的方法,以解决源分离中的特征偏好问题。我们在多通道源分离任务中评估了该方法,其中涉及空间特征和音色特征之间的特征 - 使用源分离和鲁棒对抗学习进行音频隐私保护的表示学习
本研究提出了将源分离和对抗表示学习两种常用方法结合在隐私保护中的智能声学监测系统中,通过学习音频记录的潜在表示,实现区分语音和非语音记录,从而有效提高语音隐私保护,同时在声学监测任务中保持良好的性能。
- 完整而独立:缺失目标源属性的条件分离
我们提出了一种方法,在给定输入混合物和目标源的部分语义信息的情况下,训练模型提取额外的语义数据,然后利用这个预训练模型来改善解耦的多条件分离网络的分离性能,实验证明我们的方法达到了接近具有完整语义信息的理想模型的分离性能,并且相当于最佳专门 - 基于评分的信号源分离及其在数字通信中的应用
提出了一种基于扩散生成模型的分离叠加源的新方法,通过最大后验估计和多重水平的高斯平滑指导下的 α 后验来建立新的目标函数,应用于射频系统,旨在恢复编码比特,实验结果表明,相比于经典和现有学习方法,我们的方法可以将误码率降低 95%。
- UnDiff: 无监督语音恢复与无条件扩散模型
本文介绍了 UnDiff,一种扩散概率模型,能够解决各种语音反问题,并可以应用于条件不同的任务,如降级反演、神经声波编解码和语音来源分离等。首先,我们比较了不同的神经架构和预处理方法来解决无条件波形生成的难题,并通过最新的扩散模型后处理技术 - 一种统一的音视频学习框架:局部化、分离与识别
该研究提出了一种名为 OneAVM 的联合学习框架,该框架可以用于音频 - 视频源定位、分离和识别任务,其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练,包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视 - 声音分离任务的基准测试和排行榜
本文旨在介绍音乐分离的任务以及该任务的两个新的基准数据集,比较流行模型的表现并提供评估排名,同时提供可下载的基准数据集。作者提出了一种使用不同模型进行集成的新方法,并在音乐分离挑战赛中取得了最佳结果,该方法的代码和技术细节已在 GitHub - 基于敌对生成非负矩阵分解的单声道源分离
本文介绍了一种对于非负矩阵分解 (NMF) 的对抗训练方法,用于解决源分离问题,通过避免不必要的信号特征的表示此方法可以提高重构信号的精度,尤其在缺乏充足监督数据的情况下有着很好的应用表现。
- Jointist: 通过联合训练同时提高多乐器转录和音乐源分离
本文提出 Jointist,一种仪器感知的多仪器框架,可以从音频剪辑中转录、识别和分离多个乐器。Jointist 的新颖性质对于评估这种模型提出了新的视角,然而,在我们的实验中,该模型在多个下游任务上实现了性能的提升,包括转录,分离,下行拍 - SingSong: 从歌唱中生成音乐伴奏
SingSong 是一种使用声音输入生成背景音乐的系统,通过应用最新的音源分离和音频生成算法,实现无条件音频生成,与强检索基线相比,生成的配乐受到听众的青睐。
- 使用预训练的 Diffusion 模型改善源分离
本文研究了语音分离问题,通过将分离模型和扩散模型的输出线性相结合,并利用学习到的权重来实现在多说话人的同时达到前所未有的语音分离效果,从而推翻了先前成立的基于人类语音确定性模型的上界限制。
- AAAI潜在自回归源分离
本论文介绍了一种名为 LASS 的矢量量化潜在自回归源分离方法,通过贝叶斯公式和构建离散概率密度函数来实现无需额外微调和修改现有模型即可将输入信号分离成其成分源,该方法在图像和音频分离方面表现出具有竞争力的结果。
- KDDConv-NILM-Net, 一种用于能量来源分离的因果和多器具模型
使用深度神经网络进行实时,多设备源分离的,全卷积的非侵入式负荷监测,优于现有技术
- Jointist: 多乐器转录的联合学习及其应用
该研究提出了一种多乐器转录、识别和分离的方法,并对其进行了评估。该方法可以作为其他音乐分析任务的预处理模块,并在下游任务中提供了有益的符号表示。
- 使用独立向量分析的端到端多说话人自动语音识别
本研究提出了一个端到端的多通道、多人自动语音识别系统,其中前端基于独立向量分析(IVA)范例的联合源分离和去混响机制,实现了与先前使用神经束形成前端的系统具有竞争性的性能,并能够扩展到更多说话人的分离。
- 混合谱图与波形源分离
本文介绍了在音频信号源分离中采用端到端混合模型的方法,该方法使模型决定哪个领域最适合每个源,并将两者结合起来。该方法在 Sony 举办的 2021 年音乐分离挑战中获胜。实验结果表明,该模型在 MusDB HQ 数据集上实现了 1.4dB