利用自监督语音表征进行发音错误检测
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
本文提出了一种基于自监督学习的方法,利用大量未标注语音和文本提示进行预训练,然后再进行有人工评分的微调,以更好地评估语音流畅性 / 不流畅性。实验结果表明,该方法在 Pearson 相关系数方面优于基线系统,并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。
May, 2023
本文介绍了一种方法,可以将预先训练的自我监督(SSL)语音表示转移到多种语言中,使用适配器模块加快新语言任务的预训练,并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示,然后应用这些语言表示进行自动语音识别。
Jul, 2021
本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音,将语音生成作为检测语音发音错误的一流方法,并在检测发音和词汇强调错误的任务中评估了这些技术,证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性,而且还有助于建立该领域的新的技术标准。
Jul, 2022
本研究提出融合自监督学习语音模型嵌入的集成框架,旨在探究其在音频和非语音任务中的表示能力,实验证明该框架普遍优于当前最先进的自监督学习语音 / 音频模型,特别在面对细粒度音乐任务时也表现出强大的能力。
Sep, 2022
本研究比较跨语言模型和单语言模型在日语自动语音识别上的表现,证明通过使用无标签日语数据,可实现与预先训练仅使用英语和 / 或多语言数据的跨语言模型相当的性能,并在多项自动语音识别任务上展示自监督学习在日语中的最新成果。
May, 2023
通过对英文自监督学习模型在跨语言环境中提取的特征进行研究,我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务,我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准,即 Phonetic-Syntax Ratio (PSR),通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明,wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关,表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标,可用于模型选择。
Nov, 2023
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022