英语会话语音识别的极限探讨

May, 2021

On the limit of English conversational speech recognition

Zoltán Tüske, George Saon, Brian Kingsbury

TL;DR本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

Abstract

In our previous work we demonstrated that a single headed attention encoder-decoder model is able to reach state-of-the-art results in conversational speech recognition. In this paper, we further improve the results for both Switchboard 300 and 2000. Through use of an improved optimize

attention encoder-decoder model speech recognition lstm system conformer language models

发现论文，激发创造

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

针对语音识别的端到端注意力模型的改进训练

研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用，通过预置一个高时间缩小系数并在训练过程中逐步降低，以及使用辅助 CTC 损失函数等方法，证明了它的有效性和高性能。同时，还对基于子词单元的 LSTM 语言模型进行了训练，在无语言模型情况下，在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。

May, 2018

CAPIO 2017 会话式语音识别系统

论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Dec, 2017

Microsoft 2016 会话式语音识别系统

本文介绍 Microsoft 的会话式语音识别系统，其中采用了近期发展的基于神经网络的声学和语言建模技术，结合机器学习集成技术，使用了多种卷积和循环神经网络，通过 i-vector 模型建模和不带晶格的 MMI 训练，在声学建模架构的所有方面都提供了显著的增益率，使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合，提高了 20％. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权，可在 NIST 2000 Switchboard 任务上实现 6.9％的词错误率。结合系统的误差率为 6.2％，这是对此基准测试中以前报告的结果的改进。

Sep, 2016

改进训练配方用于一个稳健的基于 Conformer 的混合模型

本文探讨了多种说话人自适应训练的方法，提出了加权简单加法这一方法，该方法可以将权重说话人信息向量添加到自我注意模块的输入中，通过在 Switchboard 300h 数据集上的实验，证明了该方法的有效性，并在先前的工作基础上提出了一种新颖的训练配方，成功地降低了模型参数数量，并在 Switchboard 300h Hub5'00 数据集上取得了 11% 的相对错误率改进。

Jun, 2022

将连接时序汇总添加到 Conformer 中，以提高其解码效率，用于语音识别

本研究提出了一种新的” 连接时序总结 “(CTS) 方法，它可以减少 Conformer 模型中 attention decoder 所需的 frames 数，提高解码效率，并且它能够在不损失 ASR 准确性的情况下降低解码预算，提高识别准确度.

Apr, 2022

微软 2017 年会话式语音识别系统

本文介绍了微软 2017 年的对话语音识别系统，采用了基于神经网络的声学建模和语言建模的最新进展，加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构，采用两阶段方法进行系统合并，并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示，词错误率为 5.1％。

Aug, 2017

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

使用 Conformer 进行连续语音分离

本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音，以连续语音分离为主要研究方向，通过在 LibriCSS 数据集上的实验，证明所提模型在语音分离任务中具有最优表现。

Aug, 2020

利用大型语言模型进行端到端的中文 ASR 和 NER

通过将语音记号映射到与文本记号相同的特征空间，将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较，评估它们不仅基于传统的 F1 评分，还基于 ASR-NER 错误的新颖细粒度分类。实验结果表明，与短上下文相比，使用编码器 - 解码器架构的性能优于仅解码器架构，而对于长上下文，仅解码器架构可以充分利用 LLM 的所有层，从而获益。我们使用 LLM 显著减少了实体遗漏错误，并改善了实体 ASR 准确率，与 Conformer 基准相比，我们在 AISHELL-NER 测试集上获得了 0.805 的最先进的 F1 评分，并通过 chain-of-thought (CoT) NER 首先推断出长形 ASR 转录，然后预测 NER 标签。

Jan, 2024