语音自监督表示基准评估：大型探测器盒的例证

Aug, 2023

语音自监督表示基准评估：大型探测器盒的例证

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads

Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli

TL;DR自监督学习利用大规模的无标签语音数据集，在少量标注数据的情况下达到令人印象深刻的性能。本研究探讨了在探测头结构改变时，基准测试结果如何受到影响。通过评估大容量的探测头，显示了它们对性能、推理成本、泛化能力和多级特征利用的影响。

Abstract

self-supervised learning (SSL) leverages large datasets of unlabeled speech to reach impressive performance with reduced amounts of annotated data. The high number of proposed approaches fostered the emergence of comprehensive benchmarks that evaluate their performance on a set of

self-supervised learning downstream tasks probing head architecture benchmarking results large-capacity probing heads

发现论文，激发创造

语音自监督表示基准测试：我们做得对吗？

本文研究了自我监督学习在语音任务中的应用，特别是其在下游任务中的性能表现和解码器架构的影响。结果发现，使用不同的解码器架构可能会导致表现结果的显著变化，使用局限的解码器也可能会适得其反地增加 SSL 模型的大小。

Jun, 2023

LeBenchmark: 一个可复现的框架，用于评估自监督语音表示学习

该论文提出 LeBenchmark，这是一个可重复的框架，用于评估自监督学习从语音到 ASR、语言理解、语音翻译和情感识别的影响，重点关注法语中的语音技术，通过实验表明，SSL 对大多数语音任务都是有益的，但不是所有任务都是。

Apr, 2021

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

LeBenchmark 2.0：一种用于法语语音的标准化、可复制和增强的自监督表示框架

该论文介绍了 LeBenchmark 2.0，一个用于评估和构建搭载自监督学习的法语语音技术的开源框架，其中包括大量不同类型的语料库，包含长达 14,000 小时的异构语音数据，十个预训练的 SSL wav2vec 2.0 模型，与社区共享的可学习参数介于 2600 万到 10 亿之间，并提供六个下游任务的评估协议以补充现有基准。LeBenchmark 2.0 还对针对语音的预训练 SSL 模型提供了独特的视角，包括冻结与微调的下游模型、任务不可知与任务特定的预训练模型，并讨论了大规模模型训练的碳足迹。

Sep, 2023

SUPERB: 语音处理通用性能基准

为了在语音处理领域建立一套系统化的自监督学习模型，该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ，通过优化基于共享模型的轻量化预测头以及自监督学习的表征表示，实现跨范围的语音处理任务优异的表现，同时也发布了该项技术以推进自监督学习的研究。

May, 2021

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0 是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了 ML-SUPERB 设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言 ASR 性能。

Jun, 2024

MiniSUPERB：自监督语音模型轻量级基准测试

本研究提出了 MiniSUPERB，该基准可以有效评估自监督语音模型的能力，同时极大地降低了计算成本。

May, 2023

自我监督的语音和说话者模型学到了什么？来自跨模型逐层分析的新发现

该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力，并发现具体层次的语音模型更专注于捕捉语言信息，而说话者模型则更注重对说话者表示的提炼。

Jan, 2024

探究自监督预训练模型的集成特征在自动语音识别中的应用

本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法，改善语音识别任务的性能，并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验，得到了较好的效果。

Jun, 2022

利用大规模 ASR 模型，在自监督学习中追求说话者验证的有监督性能

自我监督学习在发音验证中表现出与有监督系统相近的性能，本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签，实现了语音表示学习中的有监督性能，取得了 0.99％的 EER，接近有监督基线 0.94％的 EER。

Jun, 2024