远距离语音识别的自动上下文窗口组合

MMMay, 2018

远距离语音识别的自动上下文窗口组合

Automatic context window composition for distant speech recognition

Mirco Ravanelli, Maurizio Omologo

TL;DR本研究探讨了基于深度学习的远程语音识别中，非对称上下文窗口的机制，并提出了一种新的基于梯度分析的自动上下文窗口组合方法，结果表明此方法能够减少冗余帧配置，在混响环境下提供有效的语音识别性能。

Abstract

distant speech recognition is being revolutionized by deep learning, that has contributed to significantly outperform previous HMM-GMM systems. A key aspect behind the rapid rise and success of DNNs is their abil

distant speech recognition deep learning asymmetric context windows automatic context window composition reverberant scenarios

发现论文，激发创造

用于稳健的 DNN-HMM 远场语音识别的污染语音训练方法

采用三种方法改进 DNN-HMM 系统的语音识别技术，包括使用不对称上下文窗口、近距离监督和近距离预训练，实验结果表明这三种方法的使用优势显着，与基线系统相比错误率降低了 15％。

Oct, 2017

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

上下文大小对语音预训练的影响：更大并不总是更好

调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型，发现在训练和推理过程中，40ms 的上下文能够达到最佳的音素可辨识性，而太多上下文则会显著降低表示质量，并且这种模式在监督 ASR 中也适用，当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。

Dec, 2023

ContextNet：利用全局上下文提升卷积神经网络在自动语音识别中的表现

本文报道了一种新的 CNN-RNN-transducer 结构 ContextNet，它包括一个全卷积编码器，通过添加 squeeze-and-excitation 模块将全局上下文信息嵌入到卷积层中，以及一个简单的缩放方法，实现了计算和准确度之间的良好折衷，这种模型在多个基准测试集上显著优于其他模型。

May, 2020

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

从 RNN 到 DNN 的知识转移

本文研究嵌入式系统中小型深度神经网络的训练方法，提出了一种使用递归神经网络进行知识转移的方法，并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络，结果显示相较于基线结果提高了 13% 的识别准确率。

Apr, 2015

双模 ASR: 统一与改进全上下文流式 ASR 模型

该研究提出了一种统一框架的双模 ASR（自动语音识别），通过权重共享和全场景 ASR 的联合训练，特别是在训练期间进行知识蒸馏，使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络，并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究，取得了新的流式 ASR 结果。

Oct, 2020

面向基于深度神经网络的远场语音识别的批量归一化联合训练

本研究提出了一种基于深度神经网络的语音增强和语音识别的联合训练方法，采用全批归一化架构有效地解决了训练难度和输入分布不稳定的问题，在各种数据集、任务和音频条件下均取得了优秀的效果。

Mar, 2017

使用神经联想记忆进行快速上下文适应，提高设备端个性化语音识别

本文介绍一种基于模型的端到端语境自适应方法，它不依赖于解码器，适合用于设备上的个性化训练，实验结果表明，相比传统的重新评分技术，在连续个性化场景中，该方法可以使相对识别率（WER）提高 12％，实体提及特定 F1 得分提高 15.7％。

Oct, 2021