理解自监督模型作为跨语言特征提取器的量化方法

Nov, 2023

理解自监督模型作为跨语言特征提取器的量化方法

A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors

Shuyue Stella Li, Beining Xu, Xiangyu Zhang, Hexin Liu, Wenhan Chao...

TL;DR通过对英文自监督学习模型在跨语言环境中提取的特征进行研究，我们提出了一种新的度量标准来预测特征表示的质量。使用自动语音识别作为下游任务，我们分析了模型大小、训练目标和模型架构对一组拓扑多样的语料库中模型作为特征提取器的性能的影响。我们开发了一种新的度量标准，即 Phonetic-Syntax Ratio (PSR)，通过深度广义典型相关分析来衡量提取表示中的音标和合成信息。结果表明，wav2vec2.0 目标中的对比损失有助于更有效的跨语言特征提取。PSR 分数与自动语音识别性能呈正相关，表明单语自监督学习模型提取的音标信息可以用于跨语言设置中的下游任务。提出的度量标准是表示质量的有效指标，可用于模型选择。

Abstract

In this work, we study the features extracted by English self-supervised learning (SSL) models in cross-lingual contexts and propose a new metric to predict the quality of feature representations. Using automatic

english self-supervised learning metric feature extraction cross-lingual contexts phonetic-syntax ratio

发现论文，激发创造

探索日语自监督语音表征模型的语言依赖性

本研究比较跨语言模型和单语言模型在日语自动语音识别上的表现，证明通过使用无标签日语数据，可实现与预先训练仅使用英语和 / 或多语言数据的跨语言模型相当的性能，并在多项自动语音识别任务上展示自监督学习在日语中的最新成果。

May, 2023

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

SSHR：利用自监督层级表征进行多语言自动语音识别

通过使用自我监督学习 (SSHR) 的分层表示，我们提出了一种新方法来优化多语种自动语音识别 (ASR)。我们分析了自我监督学习模型的不同层次，发现了与语言和内容相关的信息，从相关的中间层中提取与语言相关的帧，并通过自注意机制引导针对特定内容的提取。此外，我们使用提出的 Cross-CTC 在最后几层中引导模型获取更多与内容相关的信息。通过在 Common Voice 和 ML-SUPERB 这两个多语种数据集上的评估，实验结果表明我们的方法在我们所知的范围内达到了最先进的性能。

Sep, 2023

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0 是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了 ML-SUPERB 设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言 ASR 性能。

Jun, 2024

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

解决数据稀缺和分布失衡问题的有效自动化口语评估方法

使用自监督学习的方法，基于测量的分类和损失重新加权的两种新模型策略，提高了自动口语评估系统的学习者语言能力预测准确性。

Apr, 2024

MOS 预测系统中语音表示的比较

本研究比较了自监督学习特征和谱特征的性能，并结合了两者以提高自动 MOS 的准确性。使用大规模听力测试语料库，发现 wav2vec 特征具有最佳的泛化能力，且结合特征组合表现最佳。

Jun, 2022

利用自监督语音表征进行发音错误检测

本文研究了自我监督学习（SSL）模型在第二语言学习者的发音错误检测任务中的应用，比较了使用母语英语数据训练模型的语音识别（PR）方法和直接使用非母语英语数据训练模型的目标任务方法，通过对 L2Arctic 和 EpaDB 两个非母语语音数据集上的评估发现，直接训练用于目标任务的下游模型表现最佳，而大多数上游模型在该任务中表现相似。

Jul, 2023