自动发音评估 - 综述 | BriefGPT

EMNLPOct, 2023

自动发音评估 - 综述

Automatic Pronunciation Assessment -- A Review

Yassine El Kheir, Ahmed Ali, Shammur Absar Chowdhury

TL;DR发音评估和其在计算机辅助发音训练（CAPT）中的应用近年来取得了令人瞩目的进展。本文回顾了发音评估方法在音位和韵律方面的应用，分类了主要的研究趋势中观察到的挑战，并强调了现有的限制和可用资源。接着讨论了剩余的挑战和未来工作的可能方向。

Abstract

pronunciation assessment and its application in computer-aided pronunciation training (capt) have seen impressive progress in recent years. With the rapid growth in language processing and deep learning over the

pronunciation assessment computer-aided pronunciation training capt phonemic prosodic

发现论文，激发创造

计算机辅助发音训练 -- 语音合成几乎是您所需的全部

本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音，将语音生成作为检测语音发音错误的一流方法，并在检测发音和词汇强调错误的任务中评估了这些技术，证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性，而且还有助于建立该领域的新的技术标准。

Jul, 2022

零样本自动发音评估

提出基于 HuBERT 的零样本自动发音评估方法，使用遮罩模块破坏语音输入获取令牌序列并使用得分模块测量错误恢复的令牌数量，在 speechocean762 上得到了可比较于监督回归基线且优于非回归基线的表现，同时分析了遮罩策略对自动发音评估性能的影响。

May, 2023

使用 MASK 预训练的端到端单词级发音评估

本文提出了一种名为 MPA 的简单而有效的方法，通过采用掩码预测策略，支持端到端的训练过程，可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。

Jun, 2023

基于文本感知的端到端发音错误检测和诊断

本文设计了门控策略以及对比学习等方法，以便更好地利用先前给定的文本信息作为指导，有效地提高了自动语音纠音技术的性能。

Jun, 2022

MultiPA: 一个用于封闭和开放响应场景的多任务语音发音评估系统

本研究提出了一种名为 MultiPA 的多任务发音评估模型，它相较于基于 Kaldi 的系统有更简单的格式要求以及与其他神经网络模型更好的兼容性，其实验结果表明在闭合反馈场景下 MultiPA 能够达到可比较的性能，同时在直接用于开放式反馈时保持更加稳健的表现。

Aug, 2023

多方面关注的层次发音评估

本研究提出了一种基于多方面注意力和分层表示的自动发音评估模型（ HiPAMA ），可在不同层次（如音素、单词和句子）上评估发音的多个方面（如准确性、流利度和完整性），从而实现更全面的反馈评估

Nov, 2022

非言语线索在稳健发音评估中的互补作用

在发音评估系统的研究中，重点使用非母语（L2）语音的语音学和音韵学方面，常常忽略了潜藏在非语言线索中的丰富信息层面。本研究提出了一种新颖的发音评估框架 IntraVerbalPA。该框架创新地结合了细粒度的帧级和抽象的话语级非语言线索，以及传统的语音和音素表示。此外，我们引入了 “音素时长的优劣度” 指标，以在框架中有效模拟时长分布。我们的结果验证了所提出的 IntraVerbalPA 框架及其各个组成部分的有效性，并获得与现有研究成果相匹配或超越的性能。

Sep, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

一种基于贪心发音选择框架的声学数据驱动的词汇表学习

本文提出了一种从转录数据中自动获得单词发音的系统，重点解决了从词汇表中删除词条的问题，实验结果表明我们提出的框架可以学习一个词汇表，在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表，而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。

Jun, 2017

一种端到端的 L2 英语语音错误发音检测系统，利用新型抗噪声建模技术

本论文提出了一种新的端到端自动语音识别方法，使用扩展后的原始 L2 语音集和其对应的反语音集，以更好地识别分类和非分类发音错误，并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计，在 L2-ARCTIC 数据集上进行了广泛的实验，结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法，分别提高了 11.05% 和 27.71%。

May, 2020