基于 Transformer 的混合语音识别声学建模

Oct, 2019

基于 Transformer 的混合语音识别声学建模

Transformer-based Acoustic Modeling for Hybrid Speech Recognition

Yongqiang Wang, Abdelrahman Mohamed, Duc Le, Chunxi Liu, Alex Xiao...

TL;DR本文提出并评估了基于 transformer 的声学模型在混合语音识别中的应用。通过讨论不同的建模选择，包括各种位置嵌入方法及迭代损失等，我们证明了在 Librispeech 基准测试中使用 transformer 模型相比其他模型性能更优越，且结合神经网络进行二次评分，我们的方法可以达到最先进的结果。

Abstract

We propose and evaluate transformer-based acoustic models (AMs) for hybrid speech recognition. Several modeling choices are discussed in this work, including various positional embedding methods and an

transformer-based acoustic models hybrid speech recognition positional embedding iterated loss librispeech benchmark

发现论文，激发创造

Transformer 在行动：Transformer 基于的大规模语音识别应用中的声学模型比较研究

本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异，介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明，Emformer 在低延迟语音助手任务中有 24％至 26％的相对单词错误率降低，并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。

Oct, 2020

利用 Transformer 的调制融合进行语言 - 声学情感识别

本文提出了基于 Transformer 和调制的两种极具轻量性能却强大的情感识别和情感分析解决方案，通过组合大量数据集的语言和语音输入来挑战、有时甚至超越这一领域的现有技术，并在 IEMOCAP、MOSI、MOSEI 和 MELD 数据集上评估和验证其性能。

Oct, 2020

终端到终端音频识别的声学模型融合

最近在深度学习和自动语音识别（ASR）方面的进展使得端到端（E2E）ASR 系统成为可能，并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中，以更好地解决领域不匹配问题，并取得了显著的词错误率降低，尤其在增强命名实体识别方面效果明显。

Oct, 2023

用卷积上下文来进行 ASR 的变压器

本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入，并阐述其在提供长程关系方面的优势和优化特点，最终实现了在无额外语言模型文本下，librispeech 测试中 4.7％和 12.9％的字错率。

Apr, 2019

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

基于自注意力和增强记忆的流式 Transformer 声学模型

本文提出了一种新颖的增强记忆自注意力机制，用于 Transformer 语音识别中的流式应用，相对于现有的可流式 Transformer 方法，减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。

May, 2020

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

贝叶斯 Transformer 语言模型在语音识别中的应用

使用贝叶斯学习框架和变分推断优化，提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。

Feb, 2021

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020