LeBenchmark 2.0：一种用于法语语音的标准化、可复制和增强的自监督表示框架

Sep, 2023

LeBenchmark 2.0：一种用于法语语音的标准化、可复制和增强的自监督表示框架

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

Titouan Parcollet, Ha Nguyen, Solene Evain, Marcely Zanon Boito, Adrien Pupier...

TL;DR该论文介绍了 LeBenchmark 2.0，一个用于评估和构建搭载自监督学习的法语语音技术的开源框架，其中包括大量不同类型的语料库，包含长达 14,000 小时的异构语音数据，十个预训练的 SSL wav2vec 2.0 模型，与社区共享的可学习参数介于 2600 万到 10 亿之间，并提供六个下游任务的评估协议以补充现有基准。LeBenchmark 2.0 还对针对语音的预训练 SSL 模型提供了独特的视角，包括冻结与微调的下游模型、任务不可知与任务特定的预训练模型，并讨论了大规模模型训练的碳足迹。

Abstract

self-supervised learning (ssl) is at the origin of unprecedented improvements in many different domains including computer vision and natural language processing. Speech processing drastically benefitted from

self-supervised learning ssl lebenchmark 2.0 french speech technologies pre-trained models

发现论文，激发创造

LeBenchmark: 一个可复现的框架，用于评估自监督语音表示学习

该论文提出 LeBenchmark，这是一个可重复的框架，用于评估自监督学习从语音到 ASR、语言理解、语音翻译和情感识别的影响，重点关注法语中的语音技术，通过实验表明，SSL 对大多数语音任务都是有益的，但不是所有任务都是。

Apr, 2021

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0 是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了 ML-SUPERB 设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言 ASR 性能。

Jun, 2024

SUPERB: 语音处理通用性能基准

为了在语音处理领域建立一套系统化的自监督学习模型，该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ，通过优化基于共享模型的轻量化预测头以及自监督学习的表征表示，实现跨范围的语音处理任务优异的表现，同时也发布了该项技术以推进自监督学习的研究。

May, 2021

语音自监督表示基准测试：我们做得对吗？

本文研究了自我监督学习在语音任务中的应用，特别是其在下游任务中的性能表现和解码器架构的影响。结果发现，使用不同的解码器架构可能会导致表现结果的显著变化，使用局限的解码器也可能会适得其反地增加 SSL 模型的大小。

Jun, 2023

朝着低成本的端到端口语理解

该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本，同时在 FSC 和 MEDIA 语料库上的实验表明，该方法可以在保持最先进性能的同时降低学习成本。

Jul, 2022

语音自监督表示基准评估：大型探测器盒的例证

自监督学习利用大规模的无标签语音数据集，在少量标注数据的情况下达到令人印象深刻的性能。本研究探讨了在探测头结构改变时，基准测试结果如何受到影响。通过评估大容量的探测头，显示了它们对性能、推理成本、泛化能力和多级特征利用的影响。

Aug, 2023

基于适配器的预训练方法用于高效可扩展的自监督语音表征学习

本文介绍了一种方法，可以将预先训练的自我监督（SSL）语音表示转移到多种语言中，使用适配器模块加快新语言任务的预训练，并在不遗忘先前语言表示的情况下学习新的音频 - 语言表示，然后应用这些语言表示进行自动语音识别。

Jul, 2021

MiniSUPERB：自监督语音模型轻量级基准测试

本研究提出了 MiniSUPERB，该基准可以有效评估自监督语音模型的能力，同时极大地降低了计算成本。

May, 2023

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

Wav2Vec-Aug: 有限数据下的改进自监督训练

本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题，从而在限制条件下将自监督学习应用于语音表示方面，并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法，在 Librispeech 的测试任务中比 Wav2Vec 2.0 实现了 13％的相对字错误率改进。

Jun, 2022