本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音,将语音生成作为检测语音发音错误的一流方法,并在检测发音和词汇强调错误的任务中评估了这些技术,证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性,而且还有助于建立该领域的新的技术标准。
Jul, 2022
提出基于 HuBERT 的零样本自动发音评估方法,使用遮罩模块破坏语音输入获取令牌序列并使用得分模块测量错误恢复的令牌数量,在 speechocean762 上得到了可比较于监督回归基线且优于非回归基线的表现,同时分析了遮罩策略对自动发音评估性能的影响。
May, 2023
本文提出了一种名为 MPA 的简单而有效的方法,通过采用掩码预测策略,支持端到端的训练过程,可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。
Jun, 2023
本文设计了门控策略以及对比学习等方法,以便更好地利用先前给定的文本信息作为指导,有效地提高了自动语音纠音技术的性能。
Jun, 2022
本研究提出了一种名为 MultiPA 的多任务发音评估模型,它相较于基于 Kaldi 的系统有更简单的格式要求以及与其他神经网络模型更好的兼容性,其实验结果表明在闭合反馈场景下 MultiPA 能够达到可比较的性能,同时在直接用于开放式反馈时保持更加稳健的表现。
Aug, 2023
本研究提出了一种基于多方面注意力和分层表示的自动发音评估模型( HiPAMA ),可在不同层次(如音素、单词和句子)上评估发音的多个方面( 如准确性、流利度和完整性),从而实现更全面的反馈评估
Nov, 2022
在发音评估系统的研究中,重点使用非母语(L2)语音的语音学和音韵学方面,常常忽略了潜藏在非语言线索中的丰富信息层面。本研究提出了一种新颖的发音评估框架 IntraVerbalPA。该框架创新地结合了细粒度的帧级和抽象的话语级非语言线索,以及传统的语音和音素表示。此外,我们引入了 “音素时长的优劣度” 指标,以在框架中有效模拟时长分布。我们的结果验证了所提出的 IntraVerbalPA 框架及其各个组成部分的有效性,并获得与现有研究成果相匹配或超越的性能。
Sep, 2023
本文综述了自动音频字幕生成领域内的研究现状,包括使用的深度学习技术、网络架构、评估指标和挑战,同时讨论了未来的研究方向。
May, 2022
本文提出了一种从转录数据中自动获得单词发音的系统,重点解决了从词汇表中删除词条的问题,实验结果表明我们提出的框架可以学习一个词汇表,在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表,而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。
Jun, 2017
本论文提出了一种新的端到端自动语音识别方法,使用扩展后的原始 L2 语音集和其对应的反语音集,以更好地识别分类和非分类发音错误,并通过转移学习范式来获得 E2E-based MDD 系统的初始模型估计,在 L2-ARCTIC 数据集上进行了广泛的实验,结果表明我们的最佳系统在 F1 分数方面胜过现有的 E2E 基线系统和基于发音评分 (GOP) 的方法,分别提高了 11.05% 和 27.71%。
May, 2020