关注在语音分离中至关重要
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
本文提出了 R-Transformer 模型,结合了 RNN 和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer 优于最先进的方法。
Jul, 2019
本文章研究了一种新兴的序列到序列模型 ——Transformer,并将它与传统 RNN 模型在 15 项 ASR、1 项多语言 ASR、1 项 ST 和 2 项 TTS 基准测试中进行了比较和分析,发现了各种训练技巧以及 Transformer 在各项任务中带来的显著性能优势,最终实验结果表明 Transformer 在 13/15 项 ASR 基准测试中比 RNN 具有惊人的优越性能。
Sep, 2019
本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音,以连续语音分离为主要研究方向,通过在 LibriCSS 数据集上的实验,证明所提模型在语音分离任务中具有最优表现。
Aug, 2020
本研究提出一种名为 “SRformer” 的分段循环变压器模型,通过使用分段关注机制和循环关注机制结合来处理长度较长的序列,降低计算和内存成本,并应用于 T5 和 BART 转换器上进行摘要生成等任务,结果显示比分段变压器基线具有更高的性能表现。
May, 2023
本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型,应用于多说话者语音识别和神经束形成器中的遮盖网络,得以有效处理混响信号,并加入外部去混响预处理方法进行对比试验。实验证明,在单通道和多通道任务下,基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%,在混响环境中的相对错误率降低达 41.5% 和 13.8%。
Feb, 2020
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
提出了一种名为 RealFormer 的技术,可以创建残差注意力层的 Transformer 网络,并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练,而且还可以导致具有更少注意力的模型,并提供了预训练检查点。
Dec, 2020