流式并行传感器束搜索算法及快慢级联编码器
本研究设计了 Conv-Transformer Transducer 架构,在 LibriSpeech 数据集上实现了较强的流式语音识别性能,该架构适用于流式 ASR,且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统,拥有更小的前向窗口、更少的参数和更低的帧率。
Aug, 2020
本文提出了一种带有约束的传递损失,以学习两个序列之间的严格单调对齐,同时优化了标准的贪婪搜索和 beam search 算法,并限制在解码时每个时刻可以传出的符号数,使传感器解码更有效率;作者们还提出了基于有限状态自动机的并行 beam search 算法,可以高效地通过 GPU 运行图形。实验结果表明,我们不仅实现了轻微的错误字率(WER)的改善,而且还实现了显著的解码加速。
Oct, 2022
本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法,并在多项实验中的表现均优于传统的在线方法,特别是在使用知识蒸馏技术时。
Jun, 2020
本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用,使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求,结果表明变压器模型具有可接受的词错误率和最低延迟要求,在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16%左右,此外,观察到在第二次得分模式下,所有编码器提供的好处相似,而性能的差异则在独立文本生成模式下更为突出。
Jun, 2022
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
该论文提出了一种端到端的语音识别模型,使用 Transformer 编码器可用于流媒体语音识别系统;该模型在 LibriSpeech 数据集上进行了实验结果,结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的,并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。
Feb, 2020
我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型,在编码器中通过约束前向和后向上下文,并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异,并能与多种解码器配置一起工作。此外,我们还引入了一种混合 CTC/RNNT 架构,利用共享编码器与 CTC 和 RNNT 解码器结合,以提高准确性并节省计算资源。我们在 LibriSpeech 数据集和多领域大规模数据集上评估了我们的模型,并证明它相对于传统的缓冲流式模型基线具有更高的准确性、更低的延迟和推断时间。同时,我们的实验证明使用多种延迟训练模型可以获得比单一延迟模型更高的准确性,并能够通过一个模型支持多种延迟。我们的实验还表明,相比于单一解码器模型,混合架构不仅加快了 CTC 解码器的收敛速度,而且提高了流式模型的准确性。
Dec, 2023
本文研究了使用不同算法,如 FastEmit,Conformer 层和 Cascaded Encoders 等,提高端到端模型在流式语音识别领域的质量和延迟平衡。
Nov, 2020