端到端多通道语音分离

May, 2019

End-to-End Multi-Channel Speech Separation

Rongzhi Gu, Jian Wu, Shi-Xiong Zhang, Lianwu Chen, Yong Xu...

TL;DR本文提出了一种基于端到端的多通道语音分离模型，通过可学习空间特征的提出，在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。

Abstract

The end-to-end approach for single-channel speech separation has been studied recently and shown promising results. This paper extended the previous approach and proposed a new end-to-end model for →

end-to-end approach single-channel speech separation multi-channel speech separation waveform-in waveform-out separation learnable spatial features

发现论文，激发创造

通过空间特征学习增强端到端多通道语音分离

本研究提出了一种基于 2d 卷积层的端到端架构，通过训练时域滤波器来学习从多通道语音波形中提取空间特征，使用互通卷积差分技术 (ICD) 提高多通道语音分离模型的分离性能。

Mar, 2020

时空神经滤波器：方向感知的端对端多通道目标语音分离

本文提出了一种时空神经滤波器，通过方向信息的辅助作用，从具有混响的多人语音混合物中直接估计目标语音波形，以提高目标和干扰源之间的时域、频域和空域可辨识度，并设计了一种全卷积自动编码器框架用于快速和端到端的语音分离处理。

Jan, 2020

基于展开迭代相位重建的端到端语音分离

本研究提出了一种基于深度学习的端到端方法用于解决单通道无特定说话人的多人语音分离问题，通过利用时间 - 频率的掩蔽，短时傅里叶变换以及它的逆变换嵌入到深层网络中，通过在重建信号上直接计算损失函数来解决之前存在的位移不一致导致的重构误差问题，同时通过多次展开的反相位恢复算法进行训练，使用新的激活函数允许掩蔽值超过 1，在公开可用的数据集上取得了目前最先进的分离效果。

Apr, 2018

通过说话人聚类的端到端语音分离算法 Wavesplit

Wavesplit 是一种端到端的源分离系统，可以通过聚类推断每个源的表示，并给出估计的源信号，从而重新定义干净的混合 2 或 3 个讲话者（WSJ0-2/3mix）以及嘈杂和混响环境（WHAM/WHAMR）的最新技术水平。

Feb, 2020

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

单 / 多通道端到端神经分离的互相学习

本文介绍了一种可处理单通道和多通道输入的端对端神经对话模型，并提出了一种双向知识传输的方法，既从多通道模型向单通道模型进行知识蒸馏，又从蒸馏后的单通道模型向多通道模型进行微调，实验结果表明该方法相互提高了单通道和多通道演讲者分离的性能。

Oct, 2022

利用空间选择性深度非线性滤波器的多通道语音分离

本文中我们提出了基于深度神经网络和循环神经网络的空间选择性滤波器 (SSF)，在多扬声器多声道分离任务中，可以从混合信号中提取出特定说话者的声音信息，并与直接分离方法进行了比较。结果表明，SSF 具有更好的空间信息利用和泛化能力。

Apr, 2023

终端到终端语音分离模型漏洞的实证分析

通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究，揭示了基于谐波关系的语音分离端到端模型机制，发现这些网络在遭遇人类无法感知的变形时表现不佳，并且 pinpoints 编码器作为网络不稳定性的来源。

Jun, 2022

通用音频分离

该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究，并尝试将其应用到任意类型混音的分离任务中，即通用声音分离。在此过程中，作者比较了不同的分析合成基础和网络结构，其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络（ConvTasNet）的架构，对于后者，作者还提出了一些新的改进方法来进一步提高分离性能。最后，作者的研究表明，短时傅立叶变换（STFT）在通用声音分离方面表现优异，而在语音 / 非语音分离方面，长窗口的 STFT（25-50 毫秒）效果明显好于短窗口（2.5 毫秒），对于可学习的基础来说，短窗口（2.5 毫秒）一直是最佳选择。作者的最佳方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。

May, 2019