多阶段 ASR 的部分重写

Dec, 2023

Partial Rewriting for Multi-Stage ASR

Antoine Bruguier, David Qiu, Yanzhang He

TL;DR提出一种文本处理算法，用于改善流式自动语音识别的结果质量，同时保持最终结果不变，并减轻闪烁问题。

Abstract

For many streaming automatic speech recognition tasks, it is important to provide timely intermediate streaming results, while refining a high quality final result. This can be done using a multi-stage architecture

streaming automatic speech recognition multi-stage architecture text manipulation algorithm quality improvement flickering reduction

发现论文，激发创造

双模 ASR: 统一与改进全上下文流式 ASR 模型

该研究提出了一种统一框架的双模 ASR（自动语音识别），通过权重共享和全场景 ASR 的联合训练，特别是在训练期间进行知识蒸馏，使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络，并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究，取得了新的流式 ASR 结果。

Oct, 2020

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

多阶段大型语言模型纠错用于语音识别

使用大型语言模型提高竞争性语音识别系统的性能，并通过多阶段方法结合传统语言模型重新评分和大型语言模型提示来进行 ASR 错误修正。

Oct, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

基于标签上下文的半自回归流式自动语音识别

提出了一种流式的 “半自回归” ASR 模型，通过在上一个片段中引入先前块中发出的标签作为额外上下文，使用语言模型（LM）子网络，以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误，提高了语音处理的准确性和响应速度。

Sep, 2023

基于 Transformer 的多分辨率和多模式语音识别

本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别（AV-ASR）系统，特别关注视觉信息提供的场景背景，以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示，并使用附加的跨模态多头注意层融合视频特征。此外，我们还采用多任务培训标准用于多分辨率 ASR，同时训练模型生成字符和子词级转录。实验结果表明，多分辨率训练可以加速收敛速度约 50％，并且相对于子词预测模型，单词错误率（WER）性能提高了高达 18％。此外，融合视觉信息可以改善表现，在仅使用音频模型的基础上，相对增益高达 3.76％。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。

Apr, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

流式端到端语音识别的解码器架构

使用解码器专用架构进行分块流式自动语音识别，通过压缩 CTC 输出和上下文嵌入的语音特征，并将其作为提示逐块顺序提供给解码器，以快速估计输出令牌，同时采用随机长度前缀提示的新型训练方案，使模型能够应对分块处理引起的截断提示，并且在 LibriSpeech test-other 数据集上相对词错误率减少了 8%，速度是基线模型的两倍。

Jun, 2024

自适应两阶段知识蒸馏缩小流式转导 ASR 和非流式转导 ASR 之间的差距

本文提出了一种自适应两阶段知识蒸馏方法，其中包括隐藏层学习和输出层学习，以缩小流式语音识别中流式和非流式转导模型的性能差距，并在 LibriSpeech 语料库中相比原始流式模型获得了 19% 的相对降低的词错误率和对第一个令牌的更快响应。

Jun, 2023