一种使用简单数据增强技术的全面依赖文本的端到端发音错误检测和诊断方法

Apr, 2021

一种使用简单数据增强技术的全面依赖文本的端到端发音错误检测和诊断方法

A Full Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy Data Augmentation Techniques

Kaiqi Fu, Jones Lin, Dengfeng Ke, Yanlu Xie, Jinsong Zhang...

TL;DR本文提出了一种新颖的文本依赖模型来利用前置文本，通过注意力机制将音频与前置文本的音素序列对齐，来实现完全的端到端结构，同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题，并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标，相较 CNN-RNN-CTC 模型有明显提升。

Abstract

Recently, end-to-end mispronunciation detection and diagnosis (MD&D) systems has become a popular alternative to greatly simplify the model-building process of conventional hybrid DNN-HMM systems by representing

end-to-end mispronunciation detection and diagnosis model-building deep network architecture attention mechanism data augmentation

发现论文，激发创造

基于文本感知的端到端发音错误检测和诊断

本文设计了门控策略以及对比学习等方法，以便更好地利用先前给定的文本信息作为指导，有效地提高了自动语音纠音技术的性能。

Jun, 2022

一种端到端的 L2 英语语音错误发音检测系统，利用新型抗噪声建模技术

本论文提出了一种新的端到端自动语音识别方法，使用扩展后的原始 L2 语音集和其对应的反语音集，以更好地识别分类和非分类发音错误，并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计，在 L2-ARCTIC 数据集上进行了广泛的实验，结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法，分别提高了 11.05% 和 27.71%。

May, 2020

有效增强机制改进终端到终端模型的发音错误检测

本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强，经实验证明较传统的 DNN-HMM 声学模型效果更佳，可以用于 L2 学习者语音纠错。

Oct, 2021

一种有效的端到端建模方法用于发音错误检测

本研究采用 E2E 模型中的混合 CTC-Attention 方法，并针对中文发音检测任务进行了输入扩充，使结果更加适合该任务。实验结果表明，与传统的混合 DNN-HMM 系统相比，该方法能够大大简化处理流程并显著提高性能。

May, 2020

L1-Aware 多语种发音错误检测框架

本文介绍了一种新颖的多语言 MDD 结构 L1-MultiMDD，它具有 L1 感知的语音表示，并使用端到端语音编码器对输入信号及其对应的参考音素序列进行训练。实验结果表明，该 L1-MultiMDD 框架在目标语言（包括英语、阿拉伯语和普通话）的统一多语言音素识别任务中具有鲁棒性、有效性和泛化能力。

Sep, 2023

基于 Phonological Level wav2vec2 的发音错误检测和诊断方法

提出了基于语音属性特征检测的低层级发音错误检测方法，通过使用单一模型联合建模非互斥的语音属性特征，该方法在英语学习者的二语语音语料库上应用，并与传统的基于音素级别的方法进行比较，从而获得了明显较低的假接受率、假拒绝率和诊断错误率。

Nov, 2023

基于音高感知的 Mandarin Chinese 语音错误检测与诊断的 RNN-T

本研究介绍了一种基于华文的 MDD（Mispronunciation Detection and Diagnosis）系统，采用无状态的 RNN-T 模型，利用带音高嵌入的 HuBERT 特征通过音高融合块进行训练，该模型仅使用母语人士的数据，在非母语场景中，其在电话错误率上表现出 3％的改进和假接受率上的 7％增加，优于现有技术基准。

Jun, 2024

多模态数据增强用于端到端语音识别

本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Mar, 2018

基于 Wav2vec2 动量伪标记的发音不准检测方法改进，用于口音和可懂度评估

本文介绍了使用 Wav2vec 2.0 模型进行自监督学习，在当前领先的发音错误检测和诊断 (MDD) 系统中使用自动伪标签方法，可以用于增强 L2 语音，提高模型的鲁棒性和准确性。

Mar, 2022

基于音节的 DNN-HMM 粤语语音到文本系统

通过使用基于音节的声学模型构建广东话语音转文本系统，该研究旨在帮助有书写困难的阅读障碍学生通过语音表达思想，实验结果表明基于 ONC 的音节声学建模在识别准确率和实时因子方面达到最佳性能。

Feb, 2024