基于展开迭代相位重建的端到端语音分离

Apr, 2018

基于展开迭代相位重建的端到端语音分离

End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction

Zhong-Qiu Wang, Jonathan Le Roux, DeLiang Wang, John R. Hershey

TL;DR本研究提出了一种基于深度学习的端到端方法用于解决单通道无特定说话人的多人语音分离问题，通过利用时间 - 频率的掩蔽，短时傅里叶变换以及它的逆变换嵌入到深层网络中，通过在重建信号上直接计算损失函数来解决之前存在的位移不一致导致的重构误差问题，同时通过多次展开的反相位恢复算法进行训练，使用新的激活函数允许掩蔽值超过 1，在公开可用的数据集上取得了目前最先进的分离效果。

Abstract

This paper proposes an end-to-end approach for single-channel speaker-independent multi-speaker speech separation, where time-frequency (T-F) mas

speech separation deep learning stft masking multi-speaker

发现论文，激发创造

基于深度学习的说话人分离相位重建：三角函数视角

该研究采用深度学习对短时傅里叶变换领域中的单声道讲话人无关音频分离进行了相位重构实验，提出了三个基于迭代相位重构、组群延迟估计和相位差符号预测的算法，对公开的 wsj0-2mix 和 3mix 语料库进行了最先进的测试。

Nov, 2018

通用音频分离

该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究，并尝试将其应用到任意类型混音的分离任务中，即通用声音分离。在此过程中，作者比较了不同的分析合成基础和网络结构，其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络（ConvTasNet）的架构，对于后者，作者还提出了一些新的改进方法来进一步提高分离性能。最后，作者的研究表明，短时傅立叶变换（STFT）在通用声音分离方面表现优异，而在语音 / 非语音分离方面，长窗口的 STFT（25-50 毫秒）效果明显好于短窗口（2.5 毫秒），对于可学习的基础来说，短窗口（2.5 毫秒）一直是最佳选择。作者的最佳方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。

May, 2019

端到端多通道语音分离

本文提出了一种基于端到端的多通道语音分离模型，通过可学习空间特征的提出，在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。

May, 2019

Conv-TasNet: 超越理想的时间 - 频率幅度掩蔽技术，实现语音分离

该论文介绍了一个名为 Conv-TasNet 的深度学习框架，可用于端到端的语音分离，通过一系列线性编码器和加权函数（掩码），Conv-TasNet 可以显著地提高两个和三个扬声器混合声音的分离能力，并优于多种时间 - 频率掩码方法和经过主观和客观质量评估的最佳时间 - 频率幅度掩码，对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。

Sep, 2018

使用统一的时频 Siamese-Unet 提取单个麦克风扬声器

本文提出了一种统一的时频方法，在清洁和嘈杂的条件下进行说话者提取。该方法采用了 Siamese-Unet 结构，使用频率域和时间域表示，以及采用了规范化的频域损失，最终在实验结果上达到了比传统的说话者提取方法和盲源分离方法更好的效果。

Mar, 2022

训练学习的潜在目标，进行两步声源分离

本文提出了一种基于深度神经网络的源分离的两阶段训练方案，第一步学习将信号转换为使掩蔽分离性能最优的潜在空间，第二步训练在学习空间中操作的分离模块，并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验，该方法可以比联合学习变换和分离模块的系统获得更好的表现。

Oct, 2019

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

使用跳过 - 滤波连接和循环推理时间频率掩模的单声道歌声分离

该论文提出了一种基于深度学习的歌声分离方法，学习和优化了源依赖性遮罩，不需要使用后处理步骤，并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器，同时也提高了单声道歌声分离的性能。

Nov, 2017

改进深度语音增强的可微一致性约束

该研究论文探讨了如何通过为语音增强网络添加不同的可微投影层来同时实现短时傅里叶变换 (STFT) 和混合一致性，并进一步提高纵向尺度不变信号 - 失真比 (SI-SDR)。

Nov, 2018

歌声的频谱绘制：U-Net 辅助的人声分割

该研究通过使用短时傅里叶变换（STFT）和 UNet 神经网络，实现了从音乐频谱图中准确分离人声元素，取得了令人瞩目的音频源分离结果。

May, 2024