- 端到端语音分离的基于性能的成本函数
本文提出采用基于感知度量的新损失函数的神经网络策略来进行端到端的语音源分离任务,实验表明这些新的损失函数能够帮助达到比基于 MSE 和 SDR 成本函数独自使用更优异的分离性能。
- ACL多说话人语音识别的纯端到端系统
本文提出了一种新的序列到序列的框架,即多说话者语音识别,通过端到端的方式将源分离和语音识别功能统一处理,同时提出了一种新的目标函数来提高隐藏向量间的对比度,实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射,与之前的显式分离和识别 - 音乐中主导与伴奏分离概述
本文对基于模型和数据的方法分别从主唱和伴奏的分离对音乐的分离技术和评价方法以及基于深度学习算法的各种研究进行了全面的介绍和总结。
- 像素的声音
PixelPlayer 是一种利用大量无标注视频进行学习的系统,该系统能够学习定位产生声音的图像区域,并将输入的声音分离成代表每个像素声音的组件。实验结果表明,我们提出的混合和分离框架在音源分离方面优于几种基线模型。
- 多分辨率卷积自编码器实现的原始多通道音频源分离
本研究提出了一种基于多通道,多分辨率卷积自编码神经网络,通过对原始时域信号进行处理以确定适用于从立体声音乐中分离歌唱声的多分辨率特征,实验结果表明该方法可以实现多通道音频源分离,无需任何手工制作的特征或任何预处理或后处理。
- SCARLET: 多波段图像中的源分离基于约束矩阵分解
本文介绍了一种基于非负矩阵因式分解的多波段图像源分离框架 SCARLET,适用于光学图像中的星星和不同恒星种群分离问题,可进行相关噪声和波段依赖 PSF 卷积的处理。SCARLET 还演示了其在深 5 波段超级 CAM 海量巡天计划中对星 - NIPS单通道音频源分离的相位相关性研究
研究阐述了利用神经可行性稀疏生成模型中保留声音频谱的相位信息,可以更好地分离音频中的人声与音乐,减少了分离出的音频中的伪声,同时取得了最先进的状态分离性能。
- 多模态字典学习用于图像分离及其在艺术调查中的应用
提出一种新的多模态成像和词典学习的耦合框架方法,以改进画作分析中的 X 射线信号分离过程。实验结果显示这种方法能够成功地从单一 X-ray 扫描中分离出含有多种信息的图像。
- 基于卷积深度神经网络的深度卡拉 OK:从音乐混音中提取人声
通过训练一个拥有十亿参数的卷积深度神经网络来从真实世界的音乐混合物中提供声音分离的理想二值掩蔽的概率估计,以对抗更传统的线性方法,该方法可以用于自动消除卡拉 OK 类型应用程序中的歌唱声。
- 基于稀疏表示和在线字典学习的半盲源分离
本文提出一种基于局部稀疏逼近的分离技术,并实现了在线学习字典以稀疏地建模背景声源,从而分离已知源与未知背景源的单个线性混合声源问题,并通过音频数据模拟展示了该方法的性能。