基于深度学习的声学模型最新进展（更新）

Apr, 2018

基于深度学习的声学模型最新进展（更新）

Recent Progresses in Deep Learning based Acoustic Models (Updated)

Dong Yu, Jinyu Li

TL;DR本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Abstract

In this paper, we summarize recent progresses made in deep learning based acoustic models and the motivation and insights behind the surveyed techniques. We first discuss →

deep learning acoustic models rnns ctc criterion speech enhancement

发现论文，激发创造

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

基于注意力机制的多模态情感识别融合

本论文提出了一种基于深度学习的方法，结合了文本和音频数据进行情绪分类，使用 SincNet 层提取音频特征，同时使用双向 RNN 和深度卷积神经网络提取文本特征，通过交叉注意力机制融合两种特征，在 IEMOCAP 数据集上取得了比现有方法更好的性能。

Sep, 2020

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

具有对话上下文信息的声学到词语模型

直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

May, 2019

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

通过融合声学和语义信息来提高自动音频字幕生成的性能

本文提出了一种基于语义和音频信息相结合的自动音频字幕生成模型，使用预训练的 ResNet38 来初始化预训练关键字编码器，并使用 LSTM 解码器和语义和音频注意力模块来进行多模态注意力解码，实验证明该模型在 Clotho 数据集上达到了最先进的性能。

Oct, 2021