DTW-SiameseNet：一种用于发音错误检测和更正的动态时间扭曲连锁网络

Mar, 2023

DTW-SiameseNet：一种用于发音错误检测和更正的动态时间扭曲连锁网络

DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation Detection and Correction

Raviteja Anantha, Kriti Bhasin, Daniela de la Parra Aguilar, Prabal Vashisht, Becci Williamson...

TL;DR本研究提出了一种针对 TTS 语音合成任务中的发音错误检测和校正的高精度、适用于 PDA 的发音学习框架，同时还提出了一种基于动态时间规整技术和度量学习的发音错误检测模型 DTW-SiameseNet。结果表明，与基于音素和音频的基线相比，我们的方法平均提高了～6％的发音准确率，并且此方法不受语言和隐私问题的影响。

Abstract

personal digital assistants (PDAs) - such as Siri, Alexa and Google Assistant, to name a few - play an increasingly important role to access information and complete tasks spanning multiple domains, and by diverse groups of users. A →

personal digital assistants text-to-speech named entity mispronunciations dynamic time warping privacy-preserving solution

发现论文，激发创造

Dict-TTS: 带有先验字典知识的学习发音文本转语音

本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Jun, 2022

计算机辅助发音训练 -- 语音合成几乎是您所需的全部

本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音，将语音生成作为检测语音发音错误的一流方法，并在检测发音和词汇强调错误的任务中评估了这些技术，证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性，而且还有助于建立该领域的新的技术标准。

Jul, 2022

基于文本感知的端到端发音错误检测和诊断

本文设计了门控策略以及对比学习等方法，以便更好地利用先前给定的文本信息作为指导，有效地提高了自动语音纠音技术的性能。

Jun, 2022

基于音高感知的 Mandarin Chinese 语音错误检测与诊断的 RNN-T

本研究介绍了一种基于华文的 MDD（Mispronunciation Detection and Diagnosis）系统，采用无状态的 RNN-T 模型，利用带音高嵌入的 HuBERT 特征通过音高融合块进行训练，该模型仅使用母语人士的数据，在非母语场景中，其在电话错误率上表现出 3％的改进和假接受率上的 7％增加，优于现有技术基准。

Jun, 2024

一种使用简单数据增强技术的全面依赖文本的端到端发音错误检测和诊断方法

本文提出了一种新颖的文本依赖模型来利用前置文本，通过注意力机制将音频与前置文本的音素序列对齐，来实现完全的端到端结构，同时提出了三种简单的数据增强方法来缓解模型捕捉错读音素的能力问题，并在 L2-ARCTIC 数据集上表现出 56.08% 的 F-measure 指标，相较 CNN-RNN-CTC 模型有明显提升。

Apr, 2021

一种有效的端到端建模方法用于发音错误检测

本研究采用 E2E 模型中的混合 CTC-Attention 方法，并针对中文发音检测任务进行了输入扩充，使结果更加适合该任务。实验结果表明，与传统的混合 DNN-HMM 系统相比，该方法能够大大简化处理流程并显著提高性能。

May, 2020

基于发音驱动的子词切分的 CTC 端到端语音识别个性化

使用深度学习和自动语音识别相结合的端到端语音识别系统在识别个人内容（如联系人姓名）方面的准确率有所提高，但仍存在挑战。本研究描述了我们基于连接主义时序分类的端到端语音识别系统的个性化解决方案，通过建立在以往研究的基础上，提出了一种从发音生成个人实体的附加子词划分的新方法。我们证明，在结合了上下文偏置和词片段先验归一化这两个已有技术的基础上，我们能够获得与具备竞争力的混合系统相当的个人命名实体准确性。

Oct, 2023

基于数据及知识驱动的多语言训练方法，提升印度语言语音识别系统的性能

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用 DNN 的分层映射技术和多任务 DNN 模型，分别在印度语种中取得 9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

一种端到端的 L2 英语语音错误发音检测系统，利用新型抗噪声建模技术

本论文提出了一种新的端到端自动语音识别方法，使用扩展后的原始 L2 语音集和其对应的反语音集，以更好地识别分类和非分类发音错误，并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计，在 L2-ARCTIC 数据集上进行了广泛的实验，结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法，分别提高了 11.05% 和 27.71%。

May, 2020

一款新型韩语学习应用的设计，用于有效纠正发音

本研究提出了一个新型韩语学习应用程序的设计，其中包括语音识别、语音到文本和语音到波形三个关键系统，使用 Google API 和 librosa 库将用户的语音转换成句子和 MFCC，同时，如果用户发音不准确，软件将用红色突出显示错误的部分，并利用 Siamese 网络提供一个相似性得分来给予反馈。

May, 2022