语音和语言识别的统一深度神经网络

Apr, 2015

语音和语言识别的统一深度神经网络

A Unified Deep Neural Network for Speaker and Language Recognition

Fred Richardson, Douglas Reynolds, Najim Dehak

TL;DR本研究使用深度神经网络（DNN）学习特征表示和亚音素后验概率，证明使用单个 DNN 进行说话人和语言识别可以取得显著的性能提升。统一 DNN 方法在 2013 年域自适应挑战说话人识别任务上取得了 55% 的 EER 降低，以及在 NIST 2011 语音识别评估测试中，在 30 秒测试条件下取得 48% 的 EER 降低。

Abstract

Learned feature representations and sub-phoneme posteriors from Deep Neural Networks (DNNs) have been used separately to produce significant performance gains for speaker and →

deep neural networks speaker recognition language recognition feature representations sub-phoneme posteriors

发现论文，激发创造

深度神经网络中的特征学习 —— 基于语音识别任务的研究

本文研究表明，深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好，这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外，我们表明 DNN 不能推广到与训练样本差异显著的测试样本，但是，如果训练数据足够代表性，DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。

Jan, 2013

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

使用自适应和多头自注意力进行语音增强

该论文研究了一种使用辅助说话者感知特征的自适应语音增强方法，从测试话语中直接提取用于适应的说话者表示。采用多任务学习的语音增强和说话人识别，并使用说话人识别分支的最终隐藏层输出作为辅助特征。此外，采用多头自注意力机制捕捉语音和噪声的长期依赖关系。在公共数据集上的实验结果表明，该策略实现了最先进的性能，并在主观质量方面优于传统方法。

Feb, 2020

应用混合深度神经网络处理达里语音

本文探讨了使用 Mel 频率倒谱系数特征提取方法和三种不同的深度神经网络模型 (CNN、RNN 和 MLP)，以及两个将 CNN 和 RNN 组合的混合模型识别达里语中个体单词的方法，结果表明，使用该技术可以获得 98.365% 的准确率。

May, 2023

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014