流式序列标注的高效编码器
本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用,使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求,结果表明变压器模型具有可接受的词错误率和最低延迟要求,在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16%左右,此外,观察到在第二次得分模式下,所有编码器提供的好处相似,而性能的差异则在独立文本生成模式下更为突出。
Jun, 2022
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本研究论文扩展了端到端的框架,以包含麦克风阵列信号处理以进行噪声抑制和语音增强,并能够共同优化束形成和识别架构。实验结果表明,我们的多通道端到端系统在去噪和语音增强任务上表现更好。
Mar, 2017
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
利用双向编码表示从历史行为中建模用户的动态演变偏好对于推荐系统至关重要,我们通过使用 Cloze 任务对历史序列项进行联合编码来解决这个问题,并在四个基准数据集上展开广泛实验,结果显示我们的模型在各种顺序模型中表现出色。
Apr, 2019
本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构,包括 Attention Context Contribution(ACC)度量和新的策略,可用于 BERTbase 模型的微调,并且使得推论延迟提高了 4.8 倍,并且精度下降少于 0.75%。
Jan, 2022
该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法,并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进;同时提出了一种新的并行时间同步波束搜索算法。研究结果表明,在公共数据集 Librispeech 和内部数据集上,该算法在稍微增加音节延迟的情况下,实现 WER 降低 20%左右,并探索了分布式处理和共享参数降低内存占用的技术,以实现低计算成本和低内存占用的边缘设备上的低延迟处理。
Mar, 2022
本研究提出一种基于同步机制的层次编码方法,将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步,从而改善了不同类型长输入文本数据的全局信息交流。
Mar, 2022
本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型,应用于多说话者语音识别和神经束形成器中的遮盖网络,得以有效处理混响信号,并加入外部去混响预处理方法进行对比试验。实验证明,在单通道和多通道任务下,基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%,在混响环境中的相对错误率降低达 41.5% 和 13.8%。
Feb, 2020