- 面向音乐源分离的无关音频轨道限定的单解码器系统
提出了使用一个解码器进行多个音频源分离的系统 Banquet,通过在与音乐乐器识别模型 PaSST 配合的询问式设置中扩展了波段分离源分离模型。使用 MoisesDB 数据集,Banquet 在仅仅 24.9 百万可训练参数的情况下,接近了 - 歌声的频谱绘制:U-Net 辅助的人声分割
该研究通过使用短时傅里叶变换(STFT)和 UNet 神经网络,实现了从音乐频谱图中准确分离人声元素,取得了令人瞩目的音频源分离结果。
- CVPR基于语言引导的三模态一致性音视频源分离
利用自监督学习方法,通过自然语言查询基于无标注视频和音频对进行音频源分离的学习,以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合,其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督,并在推理阶段能够分离声音 - 关于音乐源分离的损失函数和评估指标
本篇研究探讨了音乐源分离中的各种损失函数,旨在确定哪种损失函数提供更好的分离效果。通过对多种音频源分离损失进行调查和实验控制来评估它们,并探索使用这些损失作为评估指标。此外,研究了基于这些损失的替代评估指标,以纠正标准信噪比指标在某些情况下 - AAAI基于查询学习和弱标注数据的零样本音频源分离
本研究提出了一种基于 Transformer 的声音事件检测系统,采用三组件流水线的整体解决方案来训练一个统一的音频源分离器,该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离,并能在零样本情况下学习将音频源进行分离。
- ICCV视觉场景图用于音频源分离
本文提出了一种基于 Audio Visual Scene Graph Segmenter (AVSGS) 的深度学习模型,通过嵌入场景的视觉结构,并将其分割为子图,实现音频源分离;同时,介绍了一个全新的数据集 Audio Separatio - CVPR用于密集预测任务的密集连接多扩张卷积网络
本文介绍了一种新的用于高分辨率密集预测的卷积神经网络架构,称为 D3Net,其采用了多分辨率学习和逐渐膨胀的感受野来同时建模局部和全局模式,避免了深度网络中的深度耗散问题,并在图像和音频处理任务中取得了优越的性能。
- 高效网络用于通用音频源分离
本文提出了一种高效的神经网络用于端到端通用音频源分离,使用了连续下采样和多分辨率特征重取样(SuDoRMRF)的骨干结构,以及通过简单的一维卷积来执行特征聚合,从而实现了高质量的音频源分离,同时具有受限的浮点运算、内存需求、参数数量和延迟。 - Asteroid: 基于 PyTorch 的音频源分离工具套件,供研究人员使用
Asteroid 是基于 PyTorch 的音频源分离工具包,提供构建神经分离系统所需的全部神经构建块。该工具还提供在常见音频源分离数据集上的 Kaldi 样式的配方,以提高可重复性。通过使用 Asteroid 的配方获得的实验结果,该论文 - 使用声音分类改进通用声音分离
本文研究基于深度学习、语义嵌入和分类网络应用于通用声源分离,并成功建立了新的最先进的模型,从而提高了声源分离的性能。
- 在弱监督下学习分离声音中的强项
本文提出了使用弱标签来训练源分离系统的目标函数和网络架构,使用声音事件分类器评估分离器的性能,并在城市环境中使用合成混合事件数据库对算法的性能进行了基准测试。
- Conditioned-U-Net: 在 U-Net 中引入控制机制用于多源分离
本篇论文提出了 Conditioned-U-Net 方法以及用于音频源分离的 FiLM 层,C-U-Net 控制机制允许我们训练一个唯一、通用的 U-Net 模型来执行多种乐器的分离,从而降低成本,实现同专门模型相同性能。
- 基于 Wave-U-Net 的语音增强改进
研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 S - Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络
本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构,在处理长时间序列信号时取得了较好的分离效果,并通过改进输出层和追溯预测框架等结构进行优化,同时揭示了当前 SDR 指标存在的问题并提出了改进方案。
- MMDenseLSTM:一种卷积和递归神经网络的高效组合,用于语音源分离
利用深度神经网络技术实现音频源分离,通过在多个尺度上集成长短时记忆网络和跳跃连接,提出了一种新的网络架构,可以有效地建模音频背景中的长期结构,并在分离任务上获得了比其他网络更好的结果。
- 自监督多感官特征的音频 - 视觉场景分析
本文提出了一种融合多感官表征的方法,通过神经网络自动预测视频帧和音频的时间对齐情况,实现声音定位、视听行为识别和音频源分离等三个应用。
- ECCV通过观察未标记的视频学习分离物体声音
通过使用深度多实例多标签学习框架来解耦音频频率按照每个视觉对象映射到个人视觉对象,即使没有独立观察 / 听到这些对象,从而学习从未标记的视频中的音频可分离对象模型,然后利用视觉背景在新视频中执行音频源分离。
- 用于音频源分离的多尺度多频带 DenseNets
采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异,具有更好的信号失真比和更少的参数、更短的训练时间。