探索基于时域卷积网络的 DNN 语音增强的最佳损失函数

May, 2020

探索基于时域卷积网络的 DNN 语音增强的最佳损失函数

Exploring the Best Loss Function for DNN-Based Low-latency Speech Enhancement with Temporal Convolutional Networks

Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, Bhiksha Raj

TL;DR本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果，提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法，通过在 Voice Bank+DEMAND 数据集上的实验验证，证明了该方法的有效性并在 DNS Challenge 数据集上表现出色，同时也开源了低延迟版本的 TasNet 算法。

Abstract

Recently, deep neural networks (DNNs) have been successfully used for speech enhancement, and DNN-based speech enhancement is becoming an attractive research area. While time-frequency masking based on the short-

deep neural networks speech enhancement stft tasnet pase

发现论文，激发创造

TasNet: 用于实时单声道语音分离的时域音频分离网络

本文针对多说话人环境下的鲁棒语音处理，提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模，通过编码器输出估计源掩码、并经过解码器进行合成的方法，该方法适用于实时应用，并能在低功耗情况下完成语音分离任务，是当前最先进的语音分离算法之一。

Nov, 2017

一种感知动机的方法用于低复杂度、实时完整语音的增强

本文提出了一种称之为 PercepNet 的用于语音增强的深度学习方法，该方法仅需要短时间的傅里叶变换，通过聚焦于语音的谱包络和周期性，可以实现高质量、实时的全频带语音增强，仅需要不到 5% 的 CPU 核心。

Aug, 2020

通用音频分离

该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究，并尝试将其应用到任意类型混音的分离任务中，即通用声音分离。在此过程中，作者比较了不同的分析合成基础和网络结构，其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络（ConvTasNet）的架构，对于后者，作者还提出了一些新的改进方法来进一步提高分离性能。最后，作者的研究表明，短时傅立叶变换（STFT）在通用声音分离方面表现优异，而在语音 / 非语音分离方面，长窗口的 STFT（25-50 毫秒）效果明显好于短窗口（2.5 毫秒），对于可学习的基础来说，短窗口（2.5 毫秒）一直是最佳选择。作者的最佳方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。

May, 2019

Conv-TasNet: 超越理想的时间 - 频率幅度掩蔽技术，实现语音分离

该论文介绍了一个名为 Conv-TasNet 的深度学习框架，可用于端到端的语音分离，通过一系列线性编码器和加权函数（掩码），Conv-TasNet 可以显著地提高两个和三个扬声器混合声音的分离能力，并优于多种时间 - 频率掩码方法和经过主观和客观质量评估的最佳时间 - 频率幅度掩码，对于离线和实时语音分离应用都有较小的模型尺寸和更短的最小延迟。

Sep, 2018

使用深度神经网络最大化短时客观可懂度度量的单声道语音增强

本文中我们提出了一种基于深度神经网络的语音增强系统，它的设计目的是最大化一个短时客观可懂度的近似度量，通过模拟实验，我们表明该系统在匹配和不匹配的多种信噪比下都取得了较大的提高，并且在使用近似 - STOI 代价函数进行训练的情况下，该系统与使用平均平方误差代价的系统表现相当。

Feb, 2018

全卷积神经网络进行端到端的语音波形增强，以优化直接评估指标

本研究提出一种基于完全卷积神经网络 (FCN) 的语音增强框架，通过对话语的优化来实现时域相关性信息的全面考虑，以降低模型优化和评价指标之间的差距。该框架进一步将 STOI 度量引入模型优化中，因此人类主体和自动语音识别系统对增强的语音的可懂度得到显著提高，而这一指标优于传统的 MMSE 优化方案。

Sep, 2017

实时低延迟音乐源分离使用混合的谱图 - TasNet

通过借鉴 Hybrid Demucs 架构，本文提出了混合谱图时域音频分离网络（HS-TasNet），结合了频谱和波形域的优势，为实时低延迟的音乐应用展现了高效分离的潜力。

Feb, 2024

基于注意力神经网络的目标说话人分离

本文提出了一种基于注意力机制的神经网络（Atss-Net）来进行基于深度学习的目标说话人分离和语音增强，实验结果表明 Atss-Net 在频谱图领域比 CNN-LSTM 架构更有效，并且在语音增强方面也具有良好的性能。

May, 2020

Conv-TasNet 的实证研究

本文对 Conv-TasNet 进行了实证研究，并提出了基于非线性变体的编码器 / 解码器改进方法，实验表明这种改进可以将平均 SI-SNR 性能提高 1 dB 以上。此外，我们还探讨了 Conv-TasNet 的泛化能力和改进编码器 / 解码器的潜在价值。

Feb, 2020

具有感知驱动优化和双重转换的语音增强

本文提出了一种基于子带的语音增强系统，名为 PT-FSE，该系统通过对子带频谱图的操作来增强语音，其中包括全频带和子频带的融合模型、频率变换模块、时间变换和人类听觉感知的损失函数，实验结果表明，该系统达到了显著的改进，并且在基准数据集上优于当前最先进的技术。

Sep, 2022