基于后验分布适应的混合 CTC / 注意力系统的端到端上下文 ASR
该论文提出了一种基于注意力的上下文偏置方法,利用可编辑的短语列表(称为偏置列表)来实现用户或开发人员的定制化,该方法通过组合偏置短语索引损失和特殊标记来有效地训练,以检测输入语音数据中的偏置短语。此外,为了进一步提高推理过程中的上下文化性能,我们提出了一种基于偏置短语索引概率的偏置短语增强(BPB)束搜索算法。实验结果表明,所提出的方法在 Librispeech-960(英文)和我们的内部(日文)数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。
Jan, 2024
本文提出了一种上下文密度比方法,用于训练上下文感知的 E2E 模型和适应命名实体的语言模型,应用于医生和患者对话的 E2E ASR 系统中,相对基线提高了 46.5% 的命名实体识别率,超过了上下文浅融合基线 22.1% 的相对识别率,并且没有降低整个测试集的识别准确度。
Jun, 2022
本文介绍了一种基于上下文的自动语音识别系统:context-aware transformer transducer (CATT) 网络,通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法,取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。
Nov, 2021
这篇论文提出对 RNN-T 模型进行修改,以利用附带的元数据文本,从而改善对于命名实体词汇的识别,并在社交媒体视频数据集上取得了 16% 左右的提升。
Jun, 2020
本文提出了一种新颖的自动语音识别 (CLAS) 系统,它对上下文短语进行深层次融合,对 ASR 进行了联合优化,并且在测试阶段可以识别未知词汇,相对于传统的浅层融合方法,提高了 68% 的相对识别率。
Aug, 2018
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
May, 2020
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本文针对上下文语音识别难以适应 E2E 自动语音识别的问题,提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明,该方法在不改变解码超参数的情况下,有效降低了上下文语音识别的字词错误率,并不影响普通语音识别的表现。
Dec, 2018
本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络,该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失,以辅助训练文本化模型,改善了各种端到端语音识别模型的单词错误率(WER)。
May, 2023
研究提出一种轻量级字符表示的方法来编码精细的发音特征,以提高基于声学相似性的情境偏倚,在与音频和情境实体相关的语义上执行情境偏倚,并集成预训练的神经语言模型(NLM)。在 Librispeech 数据集上进行的实验表明,在不同的情境偏见列表大小上,采用提出的声学偏倚和语义偏倚方法,相对于基线情境模型,Conformer Transducer 模型相对 WER 提高了 4.62%-9.26%。在大规模的内部数据集上,相对于基准模型,相对 WER 的提高为 7.91%。在 Librispeech 稀有单词和内部测试集上,尾部话语的表现甚至更加显著,分别实现了 36.80%和 23.40%的相对 WER 改善。
May, 2023