基于深度神经网络的音频增强的多目标学习和基于掩蔽的后处理

Mar, 2017

基于深度神经网络的音频增强的多目标学习和基于掩蔽的后处理

Multi-Objective Learning and Mask-Based Post-Processing for Deep Neural Network Based Speech Enhancement

Yong Xu, Jun Du, Zhen Huang, Li-Rong Dai, Chin-Hui Lee

TL;DR该研究提出了一种多目标框架，旨在学习与语音增强 (SE) 的目标任务无关的次要目标以及直接用于构建增强语音信号的原始目标的清洁对数功率谱 (LPS) 特征。在深度神经网络 (DNN) 语音增强中，作者引入了一个辅助结构来学习次要的连续特征和分类信息，并将其集成到原始 DNN 体系结构中，以联合优化所有参数。这种联合估计方案强加了其他限制，这在直接预测 LPS 时不可用，并且潜在地提高了主要目标的学习能力。此外，作为副产物学到的次要信息可以用于其他目的，在本文中是基于 IBM 的后处理。一系列实验表明，联合学习 LPS 和 MFCC 可以提高语音增强的性能，基于 IBM 的后处理进一步提高了重建语音的听音质量。

Abstract

We propose a multi-objective framework to learn both secondary targets not directly related to the intended task of speech enhancement (SE) and the primary target of the clean →

speech enhancement multi-objective framework deep neural network log-power spectra ideal binary mask

发现论文，激发创造

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

使用深度神经网络最大化短时客观可懂度度量的单声道语音增强

本文中我们提出了一种基于深度神经网络的语音增强系统，它的设计目的是最大化一个短时客观可懂度的近似度量，通过模拟实验，我们表明该系统在匹配和不匹配的多种信噪比下都取得了较大的提高，并且在使用近似 - STOI 代价函数进行训练的情况下，该系统与使用平均平方误差代价的系统表现相当。

Feb, 2018

实时全频段语音增强的混合 DSP / 深度学习方法

本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Sep, 2017

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015

深度学习音 - 视觉语音增强的训练目标和目标函数

研究采用深度学习技术解决音视频语音增强任务时，目标量和目标函数的选择对性能至关重要；本实验研究了一系列不同的目标量和目标函数，结果表明直接估计掩模的方法在估计语音质量和可懂度方面表现最佳。

Nov, 2018

基于扩散概率模型的语音增强度量化方法

研究提出了一种基于度量导向的语音增强方法 (MOSE)，通过创新的 actor-critic 框架，将评估度量视为后验奖励，以指导反向过程到度量增加方向，从而提高了性能。

Feb, 2023

使用自适应和多头自注意力进行语音增强

该论文研究了一种使用辅助说话者感知特征的自适应语音增强方法，从测试话语中直接提取用于适应的说话者表示。采用多任务学习的语音增强和说话人识别，并使用说话人识别分支的最终隐藏层输出作为辅助特征。此外，采用多头自注意力机制捕捉语音和噪声的长期依赖关系。在公共数据集上的实验结果表明，该策略实现了最先进的性能，并在主观质量方面优于传统方法。

Feb, 2020

利用中心损失和重建作为正则化器学习区分特征的语音情感识别

该论文提出了一种卷积神经网络，基于多任务学习和基于语音特征的监督学习策略，旨在识别说话中的情感，结果最适合于语音情感识别的高度识别特征。

Jun, 2019