将无栅格情境相关 MMi 集成到端到端语音识别中
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
May, 2020
内部语言模型减法与序列鉴别训练在语音识别中表现类似,通过实证研究证明二者性能相近,同时了解序列鉴别训练对常用零编码器内部语言模型估计产生极小影响,但对包括内部语言模型和空白抑制的编码器和预测 + 联合网络的后验概率重整具有联合效应。
Sep, 2023
本论文提出了一种新的端到端自动语音识别方法,使用扩展后的原始 L2 语音集和其对应的反语音集,以更好地识别分类和非分类发音错误,并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计,在 L2-ARCTIC 数据集上进行了广泛的实验,结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法,分别提高了 11.05% 和 27.71%。
May, 2020
本研究提出了一种基于上下文偏差和似然比的方法,用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标,在多个跨领域数据集上相对提高了 10%的识别正确率,同时也优化了 8-Best Oracle WER。
Jan, 2022
本研究提出了一种新型的解码算法,可以结合外部语言模型,构建单词级别的 lattice,用于提高语音识别的表现,并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。
Jan, 2022
提出了一种内部语言模型估计(ILME)方法,用于在无需额外模型训练的情况下,更有效地集成外部 LM 并改善端到端自动语音识别中的域不匹配问题,包括最受欢迎的循环神经网络转录器(RNN-T)和基于注意力的编码器 - 解码器(AED)模型。
Nov, 2020
通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益,提出了 MBR(最小贝叶斯风险)微调和 QE(质量评估)微调方法,通过使用自我训练模型和外部 LLM(语言模型)作为教师模型,这些微调方法在自然语言生成(NLG)任务中达到了比人生成参考文献更好的结果,且能保持推论过程的高效性。
Sep, 2023
本文介绍了一种新颖的多语言 MDD 结构 L1-MultiMDD,它具有 L1 感知的语音表示,并使用端到端语音编码器对输入信号及其对应的参考音素序列进行训练。实验结果表明,该 L1-MultiMDD 框架在目标语言(包括英语、阿拉伯语和普通话)的统一多语言音素识别任务中具有鲁棒性、有效性和泛化能力。
Sep, 2023
本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强,经实验证明较传统的 DNN-HMM 声学模型效果更佳,可以用于 L2 学习者语音纠错。
Oct, 2021