单调块级注意力
研究提出一种可用于在线设置中,使得注意力机制在线性时间内计算的可微分方法,- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题,并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。
Apr, 2017
本文提出了一种名为 Monotonic Multihead Attention(MMA)的新型注意力机制,可应用于同时翻译的机器翻译任务,并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法,与最先进的 Milk 方法相比,MMA 具有更好的延迟 - 质量平衡,同时分析了延迟控制对关注范围的影响,通过分析解码器层数和头数对质量和延迟的影响来证明模型的引入。
Sep, 2019
本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍,并提出了两种方法来缓解两种方法结合时的性能下降,从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。
Nov, 2018
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
提出了一种基于步骤单调注意力方法,将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中,以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。
Jun, 2019
本文提出了一种前向注意力机制的序列到序列的语音合成声学建模方法,该方法基于从电话序列到声学序列的单调对齐的自然属性,并使用前向算法递归地计算每个时间步长的修改后的注意力概率。实验结果表明,前向注意力方法具有更快的收敛速度和更高的稳定性。此外,过渡代理可以有效地提高合成语音的自然性,并控制合成语音的速度。
Jul, 2018
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
通过 Shifted Cross Chunk Attention (SCCA) 结合 Dilated Attention (DA) 和 Dilated Neighborhood Attention (DNA) 的方法,本研究在语言建模实验中使用不同的 SCCA 模式和 SCCA 与 SDA 的组合,有效地将大型语言模型(LLMs)扩展到更长的上下文,并与当前稀疏注意力相比提供了一个插拔式微调方法,以扩大模型上下文,并与大多数现有技术兼容。
Dec, 2023
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022