语音处理低延迟 transformers

Feb, 2023

Low latency transformers for speech processing

Jianbo Ma, Siqi Pan, Deepak Chandran, Andrea Fanelli, Richard Cartwright

TL;DR本文介绍了新型神经网络的构建块 ——transformer，在音频数据应用中倾向于限制其在离线任务的应用。为此，我们提出了 Streaming Attention（SA）和 Low Latency Streaming Attention（LLSA）方法。对于自动语音识别（ASR）和语音情感识别（SER）任务的比较分析表明，这些方法可以与非因果（AA）网络表现相当，但具有实时流媒体应用的延迟特性和更低的计算和内存需求。

Abstract

The transformer is a widely-used building block in modern neural networks. However, when applied to audio data, the transformer's acausal behaviour, which we term Acausal Attention (AA), has generally limited its

transformer streaming attention low latency automatic speech recognition speech emotion recognition

发现论文，激发创造

一种基于注意力机制的在线语音识别模型

本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍，并提出了两种方法来缓解两种方法结合时的性能下降，从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。

Nov, 2018

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

使用 Scout 网络的低延迟端对端流式语音识别

本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法，其中包含了一个侦察网络和一个识别网络，该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。

Mar, 2020

使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟

本文提出一种帧级模型，采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性，通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充，以达到更好的性能。实验表明，该模型在 LibriSpeech 数据集上具有较高的性能。

Mar, 2022

ELSA：增强的局部自注意力视觉变换器

本文通过从通道设置和空间处理两个方面综合调查了本地自注意力和其同行的性能，发现空间注意力的生成和应用是影响性能的关键因素，提出了增强型本地自注意力（ELSA）并通过实验验证其有效性。

Dec, 2021

T-GSA：具有高斯加权自注意力机制的变形金刚网络用于语音增强

本文提出了一种高斯加权自注意力 Transformer 神经网络 (T-GSA)，通过自注意力机制的加权距离缩减，实现了显著的语音增强性能改进，在长程依赖任务中实现了并行化计算。

Oct, 2019

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

动态隐变量感知器实现高效语音翻译

该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术，这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配，并且可以在推理过程中灵活部署，适应多种计算预算，而不会导致显著降低翻译质量。

Oct, 2022