使用自适应和多头自注意力进行语音增强

Feb, 2020

使用自适应和多头自注意力进行语音增强

Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention

Yuma Koizumi, Kohei Yatabe, Marc Delcroix, Yoshiki Masuyama, Daiki Takeuchi

TL;DR该论文研究了一种使用辅助说话者感知特征的自适应语音增强方法，从测试话语中直接提取用于适应的说话者表示。采用多任务学习的语音增强和说话人识别，并使用说话人识别分支的最终隐藏层输出作为辅助特征。此外，采用多头自注意力机制捕捉语音和噪声的长期依赖关系。在公共数据集上的实验结果表明，该策略实现了最先进的性能，并在主观质量方面优于传统方法。

Abstract

This paper investigates a self-adaptation method for speech enhancement using auxiliary speaker-aware features; we extract a speaker representation used for adaptation directly from the test utterance. Convention

speech enhancement speaker representation dnn multi-task learning self-attention

发现论文，激发创造

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

基于说话人自适应的神经声码器的参数化语音合成系统

本文提出了适应性讲话者神经声码器，用于参数文本到语音（TTS）系统，利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。

Nov, 2018

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

语音和语言识别的统一深度神经网络

本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Apr, 2015

高效自适应文本转语音

采用元学习方法对自适应文本到语音合成进行研究，通过共享 WaveNet 核和独立学习的扬声器嵌入来学习多讲话者模型，该方法能够成功地将多扬声器神经网络进行快速适应并获得最新演讲者的自然音质和语音相似度的最新结果。

Sep, 2018

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

学习可分离的隐藏单元贡献用于适应性口型阅读

提出了一种新颖的嘴唇阅读中的说话人适应方法，根据嘴唇运动中浅层和深层的特点分别对其进行处理，通过自动学习说话者的独特特征以提高鲁棒的嘴唇阅读。

Oct, 2023

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

高效单声道语音增强的谱注意力融合

在语音增强领域，我们提出了一种称为频谱注意力融合的方法，通过使用卷积模块替换自注意力层，提高了模型的计算效率，从而实现了与先进模型相媲美的结果，但参数规模更小（0.58M）的目标。

Aug, 2023