利用自监督语音表征进行发音错误检测

Jul, 2023

利用自监督语音表征进行发音错误检测

Mispronunciation detection using self-supervised speech representations

Jazmin Vidal, Pablo Riera, Luciana Ferrer

TL;DR本文研究了自我监督学习（SSL）模型在第二语言学习者的发音错误检测任务中的应用，比较了使用母语英语数据训练模型的语音识别（PR）方法和直接使用非母语英语数据训练模型的目标任务方法，通过对 L2Arctic 和 EpaDB 两个非母语语音数据集上的评估发现，直接训练用于目标任务的下游模型表现最佳，而大多数上游模型在该任务中表现相似。

Abstract

In recent years, self-supervised learning (SSL) models have produced promising results in a variety of speech-processing tasks, especially in contexts of data scarcity. In this paper, we study the use of SSL models for the task of →

self-supervised learning mispronunciation detection second language learners phone recognition non-native english data

发现论文，激发创造

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

非母语流畅度评分的音素和韵律感知自监督学习方法

本文提出了一种基于自监督学习的方法，利用大量未标注语音和文本提示进行预训练，然后再进行有人工评分的微调，以更好地评估语音流畅性 / 不流畅性。实验结果表明，该方法在 Pearson 相关系数方面优于基线系统，并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。

May, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

计算机辅助发音训练 -- 语音合成几乎是您所需的全部

本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音，将语音生成作为检测语音发音错误的一流方法，并在检测发音和词汇强调错误的任务中评估了这些技术，证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性，而且还有助于建立该领域的新的技术标准。

Jul, 2022

自监督语音模型在音频表示方面的功效

本研究提出融合自监督学习语音模型嵌入的集成框架，旨在探究其在音频和非语音任务中的表示能力，实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型，特别在面对细粒度音乐任务时也表现出强大的能力。

Sep, 2022

探索日语自监督语音表征模型的语言依赖性

本研究比较跨语言模型和单语言模型在日语自动语音识别上的表现，证明通过使用无标签日语数据，可实现与预先训练仅使用英语和 / 或多语言数据的跨语言模型相当的性能，并在多项自动语音识别任务上展示自监督学习在日语中的最新成果。

May, 2023

理解自监督模型作为跨语言特征提取器的量化方法

通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Nov, 2023

在实际应用中应用自监督学习，实现混合式自动语音识别

本文讨论了如何利用未经筛选的音频数据进行自监督学习，在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略，比较了近期开发的对比损失，并通过实验结果表明，利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。

May, 2022

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

改善自监督语音处理模型在扭曲场景下的泛化性能

本文提出采用交叉失真映射和域对抗训练技术对自监督学习的语音预训练模型进行知识蒸馏，以缓解性能差距问题，具有较好的性能表现。

Oct, 2022