自动语音识别的单调分段注意力
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022
本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍,并提出了两种方法来缓解两种方法结合时的性能下降,从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。
Nov, 2018
在语音领域中,基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明,仅依靠注意力机制是不稳健的,只有在训练数据包含话语标注的情况下才具有可用性。
Sep, 2021
介绍了一种在线神经序列到序列模型,它在读取输入时学习在编码和解码段之间交替。通过独立跟踪编码和解码表示,我们的算法允许在训练期间对潜在分隔进行精确的多项式边缘化,并且在解码期间,使用波束搜索来找到最佳对齐路径以及预测的输出序列,实现在线生成。在抽象化句子摘要和形态变化方面的实验表明,相对于基线编码器 - 解码器,我们的模型具有显著的性能提升。
Sep, 2016
研究提出一种可用于在线设置中,使得注意力机制在线性时间内计算的可微分方法,- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题,并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。
Apr, 2017
使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD,我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。
Apr, 2022
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017
提出了一种基于步骤单调注意力方法,将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中,以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。
Jun, 2019