PHASEN：一个考虑相位和谐波的语音增强网络

AAAINov, 2019

PHASEN：一个考虑相位和谐波的语音增强网络

PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

Dacheng Yin, Chong Luo, Zhiwei Xiong, Wenjun Zeng

TL;DR本文介绍了一种基于深度神经网络的相位和谐感知模型（PHASEN），用于单通道语音增强，其中使用两种不同的流进行幅度和相位预测，并设计了频率转换模块来捕捉沿频率轴的长程相关性，在 AVSpeech + AudioSet 和 Voice Bank + DEMAND 数据集上分别获得 1.76dB 和大幅优于以前方法的表现。

Abstract

Time-frequency (T-F) domain masking is a mainstream approach for single-channel speech enhancement. Recently, focuses have been put to phase prediction in addition to amplitude prediction. In this paper, we propose a phase-and-harmonics-aware deep →

speech enhancement phase prediction neural network frequency transformation spectrogram

发现论文，激发创造

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

DPATD: 双阶段音频变压器降噪

通过利用较小的音频块作为输入，我们提出了一种名为 DPATD 的双相音频变压器模型，该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。

Oct, 2023

一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

本研究提出了一种名为 HiNet 的神经声码器，其通过分层预测振幅和相位谱从声学特征重建语音波形，包含振幅谱预测器（ASP）、相位谱预测器（PSP）以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外，我们还将生成对抗网络引入到 ASP 和 PSP 中。最终，ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。

Jun, 2019

PhaseAug: 可微分扩充的语音合成，模拟一对多映射

本文提出了一种基于 GAN 的语音合成方法 PhaseAug，该方法通过对每个频率进行相位旋转来模拟一对多映射，可以更好地实现语音合成，有效解决周期性伪影的问题。

Nov, 2022

语音去噪的 Wavenet

该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Jun, 2017

非平稳时间序列的相位驱动领域通用学习

基于我们观察到的非稳态统计与相位信息的内在联系，我们提出了一种时间序列学习框架 PhASER，包括相位增强、分离特征编码、特征广播等元素，以增强学习模型对不同分布的泛化能力，通过在人类活动识别、睡眠阶段分类和手势识别等 5 个数据集上的广泛评估，我们证明 PhASER 相对于现有基线方法平均提高了 5% 的性能，在某些情况下提高了 13%，此外，PhASER 的原则可以广泛应用于提升现有时间序列分类模型的泛化能力。

Feb, 2024

相位连续性：学习语音增强的相位频谱导数

本文提出了一种有效的相位重建策略，可以在嘈杂的环境中操作，通过将相位连续性损失考虑在最先进的神经语音增强系统中，本文证明了我们所提出的方法在训练过程中，可以显著提高增强语音信号的质量。

Feb, 2022

探索基于时域卷积网络的 DNN 语音增强的最佳损失函数

本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果，提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法，通过在 Voice Bank+DEMAND 数据集上的实验验证，证明了该方法的有效性并在 DNS Challenge 数据集上表现出色，同时也开源了低延迟版本的 TasNet 算法。

May, 2020

使用循环一致生成对抗网络的两阶段复杂网络进行语音增强

本文提出了一种基于两个阶段的去噪系统，该系统通过将 CycleGAN 模型的估计强度与原始嘈杂的相位相结合来获得粗略增强的复杂光谱，并利用复杂光谱映射网络进一步抑制噪声成分和估计干净相位。实验结果表明，该方法在各种评估指标方面始终优于之前的单阶段 CycleGAN 和其他最先进的 SE 系统，尤其是在背景噪声抑制方面

Sep, 2021