使用基于 Wav2vec2 的口音识别模型探究语音和韵律信息

Jun, 2023

使用基于 Wav2vec2 的口音识别模型探究语音和韵律信息

What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification Model

PDF

Mu Yang, Ram C. M. C. Shekar, Okim Kang, John H. L. Hansen

TL;DR本研究旨在通过模型探测系统层面地分析自监督学习模型在口音识别任务的微调中音素和韵律信息变化，并比较其在 Phoneme 相关性任务和预测词级韵律任务中的表现，结果表明 AID 微调任务使得自监督模型的前两层学习到了更丰富的音素和韵律表示，并且与 ASR 任务的影响有一些相似性，此外在第 9 层观察到了明显的口音特定的音素表示，总之，本研究提供了 SSL 特征以及其与微调任务之间相互作用的认识。

Abstract

This study is focused on understanding and quantifying the change in phoneme and prosody information encoded in the self-supervised learning

self-supervised learning accent identification phoneme prosody transformer layers

发现论文，激发创造

ProsAudit, 自监督语音模型的韵律基准

本文介绍了一个叫 ProsAudit 的英文基准测试，旨在评估自我监督学习（SSL）语音模型中的结构韵律知识，它由两个子任务、相应的指标和评估数据集组成。通过对一系列 SSL 模型的评估，发现这些模型在两个子任务上表现良好，特别地，大型模型在这两个子任务中表现更好。同时本文也强调了词汇知识在这一任务中的重要性。

Feb, 2023

基于 Wav2vec2 动量伪标记的发音不准检测方法改进，用于口音和可懂度评估

本文介绍了使用 Wav2vec 2.0 模型进行自监督学习，在当前领先的发音错误检测和诊断 (MDD) 系统中使用自动伪标签方法，可以用于增强 L2 语音，提高模型的鲁棒性和准确性。

Mar, 2022

非母语流畅度评分的音素和韵律感知自监督学习方法

本文提出了一种基于自监督学习的方法，利用大量未标注语音和文本提示进行预训练，然后再进行有人工评分的微调，以更好地评估语音流畅性 / 不流畅性。实验结果表明，该方法在 Pearson 相关系数方面优于基线系统，并且通过消融实验来更好地理解音素和韵律因素在预训练阶段的贡献。

May, 2023

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

自监督语音模型的有效适配器传递用于自动语音识别

本文研究使用适配器将预训练的 wav2vec 2.0 模型进行微调，以减少自动语音识别任务对参数的需求，提高模型的可扩展性和效率。应用适配器后，每个任务的参数少于 10％，性能降低很少。结果表明，通过仅向预训练网络的前几层添加适配器，就可以实现与完全迁移相似的性能，进一步优化了效率。

Feb, 2022

地理区域近似场景下的低资源口音分类：法庭和社会语音学视角

本文探讨了不同语音机器学习模型及分类器在地方口音识别方面的应用，发现传统方法的性能也值得关注，并证实了一种新方法测量社会语音变化。

Jun, 2022

理解自监督模型作为跨语言特征提取器的量化方法

通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Nov, 2023

预训练变压器中微调和句子级探测在语言知识中的相互作用

本文研究了 BERT、RoBERTa、ALBERT 三个预训练模型在句子级探测下，微调如何影响它们的表示。发现微调对于探测任务的准确性有着重大影响，但不同模型和任务的影响有所不同。在发现微调对于探测有着积极或消极的影响时，需进行慎重解释。

Oct, 2020

利用自动预测的韵律信息来改进指代消解

本文介绍了利用卷积神经网络从语音信号的声学特征中提取的音高重音及语调信息对共指消解产生积极影响，并且通过自动预测声调信息的实验结果进一步支持了前人研究的结论。

Jul, 2017