本文提出了一种新颖的文本依赖模型来利用前置文本,通过注意力机制将音频与前置文本的音素序列对齐,来实现完全的端到端结构,同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题,并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标,相较 CNN-RNN-CTC 模型有明显提升。
Apr, 2021
本论文提出了一种新的端到端自动语音识别方法,使用扩展后的原始 L2 语音集和其对应的反语音集,以更好地识别分类和非分类发音错误,并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计,在 L2-ARCTIC 数据集上进行了广泛的实验,结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法,分别提高了 11.05% 和 27.71%。
May, 2020
提出了基于语音属性特征检测的低层级发音错误检测方法,通过使用单一模型联合建模非互斥的语音属性特征,该方法在英语学习者的二语语音语料库上应用,并与传统的基于音素级别的方法进行比较,从而获得了明显较低的假接受率、假拒绝率和诊断错误率。
Nov, 2023
本文介绍了一种新颖的多语言 MDD 结构 L1-MultiMDD,它具有 L1 感知的语音表示,并使用端到端语音编码器对输入信号及其对应的参考音素序列进行训练。实验结果表明,该 L1-MultiMDD 框架在目标语言(包括英语、阿拉伯语和普通话)的统一多语言音素识别任务中具有鲁棒性、有效性和泛化能力。
Sep, 2023
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强,经实验证明较传统的 DNN-HMM 声学模型效果更佳,可以用于 L2 学习者语音纠错。
Oct, 2021
本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音,将语音生成作为检测语音发音错误的一流方法,并在检测发音和词汇强调错误的任务中评估了这些技术,证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性,而且还有助于建立该领域的新的技术标准。
Jul, 2022
本研究介绍了一种基于华文的 MDD(Mispronunciation Detection and Diagnosis)系统,采用无状态的 RNN-T 模型,利用带音高嵌入的 HuBERT 特征通过音高融合块进行训练,该模型仅使用母语人士的数据,在非母语场景中,其在电话错误率上表现出 3%的改进和假接受率上的 7%增加,优于现有技术基准。
Jun, 2024
本文提出了一种名为 MPA 的简单而有效的方法,通过采用掩码预测策略,支持端到端的训练过程,可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。
Jun, 2023
本研究提出了一种针对 TTS 语音合成任务中的发音错误检测和校正的高精度、适用于 PDA 的发音学习框架,同时还提出了一种基于动态时间规整技术和度量学习的发音错误检测模型 DTW-SiameseNet。结果表明,与基于音素和音频的基线相比,我们的方法平均提高了~6% 的发音准确率,并且此方法不受语言和隐私问题的影响。
Mar, 2023