块同步束搜索流式 Transformer 自动语音识别
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
本研究提出基于块状,流式 Transformer 的方法,通过流式处理和块状并行检索,在同时进行自然语言理解和语音翻译等多个语音处理任务中,实现实时处理并取得与离线模型相当甚至更高的性能表现,并通过引入自动语音识别中间层损失约束和跨语言编码方法等方式进一步提高分类性能和模型表现。
Apr, 2022
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文介绍了一种基于块处理的 Transform self-attention 网络用于语音识别的新方法,通过引入上下文 - aware 继承机制和一种新的掩码技术,有效地编码本地和全局信息,实验结果表明,该方法显著优于朴素块处理方法。
Oct, 2019
通过修改增量性的分块束搜索策略,本文提出了一种用于控制质量 - 延迟权衡的方法,并应用于在线和离线翻译模型,实验结果表明在 MuST-C 数据集上 BLEU 指标提升 0.6-3.6,延迟降低 0.8-1.4 秒。
Sep, 2023
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法,并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进;同时提出了一种新的并行时间同步波束搜索算法。研究结果表明,在公共数据集 Librispeech 和内部数据集上,该算法在稍微增加音节延迟的情况下,实现 WER 降低 20%左右,并探索了分布式处理和共享参数降低内存占用的技术,以实现低计算成本和低内存占用的边缘设备上的低延迟处理。
Mar, 2022
提出一种基于移位块机制的 SChunk-Transformer 和 SChunk-Conformer 模型,可以较好地解决全局上下文建模和训练效率问题,在 AISHELL-1 测试集上分别取得 6.43% 和 5.77% 的 CER 准确率,与传统的块式模型相比性能更佳。
Mar, 2022
通过使用基于自注意力机制的 Transformer 模型,比较了基于音节和音素的汉语语音识别模型,结果表明音节模型在 HKUST 语料库上表现优异。
Apr, 2018