使用统一的时频 Siamese-Unet 提取单个麦克风扬声器
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019
本研究提出了一种基于深度学习的端到端方法用于解决单通道无特定说话人的多人语音分离问题,通过利用时间 - 频率的掩蔽,短时傅里叶变换以及它的逆变换嵌入到深层网络中,通过在重建信号上直接计算损失函数来解决之前存在的位移不一致导致的重构误差问题,同时通过多次展开的反相位恢复算法进行训练,使用新的激活函数允许掩蔽值超过 1, 在公开可用的数据集上取得了目前最先进的分离效果。
Apr, 2018
通过提出 SpEx 网络并采用多尺度嵌入系数,将多说话声音信号转换成特定发言人的声音信号,该网络在信号畸变比(SDR)、比例尺不变信号畸变比(SI-SDR)和语音质量评估(PESQ)等方面均有显著改进。
Apr, 2020
本文提出了一种完整的时域说话人提取解决方案 SpEx+ ,通过绑定两个相同语音编码器网络的权重来消除时域与频域之间的不匹配,实验证明 SpEx+ 在不同和相同性别条件下,比现有的 SpEx 基准系统有 0.8dB 和 2.1dB 的 SDR 提高。
May, 2020
本文提出了一种新的序列到序列的框架,即多说话者语音识别,通过端到端的方式将源分离和语音识别功能统一处理,同时提出了一种新的目标函数来提高隐藏向量间的对比度,实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射,与之前的显式分离和识别模块的端对端工作相比,取得了 83.1% 的相对改进。
May, 2018
提出了一种新的深度学习框架来解决混合谱中时域 - 频域混淆的问题并有效恢复说话者语音,其中将混合信号的时频表示投影到高维嵌入空间,并为每个说话者创建一个参考点吸引器,并将说话者的嵌入向量强制聚集到其相应的吸引器点附近,该方法在 Wall Street Journal 数据集上表现出与其他最先进的深度学习方法相媲美甚至更好的性能。
Jul, 2017
本文提出 SpeakerBeam 算法实现对目标说话人的识别和提取,对同性别混合语音的语音分离效果不如期望,但在本文中提出的时间域、空间特征和辅助说话人识别方法使得提取效果得到增强并超过了 TasNet。
Jan, 2020
该研究提出了一种新的基于深度提取器网络的说话人感知源分离方法,它能够在高维空间构建提取器点以提取目标说话人的信息。实验结果表明该方法可以高效地从混合音频中恢复高质量的目标语音,相比基线深度吸引子模型,SDR 和 PESQ 都有 5.2% 和 6.6% 的相对改进,并且该方法可以很好地推广到多个干扰说话人的情况下。
Jul, 2018
本文提出了通过结合 Siamese 多视图编码器和共享解码器网络,将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训,我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现,平均准确率相对提升了 11.1%。我们还在跨视图单词鉴别和单词级语音识别任务中展示了实验结果。
Oct, 2019
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019