语音自监督表示基准评估:大型探测器盒的例证
本文研究了自我监督学习在语音任务中的应用,特别是其在下游任务中的性能表现和解码器架构的影响。结果发现,使用不同的解码器架构可能会导致表现结果的显著变化,使用局限的解码器也可能会适得其反地增加 SSL 模型的大小。
Jun, 2023
该论文提出 LeBenchmark,这是一个可重复的框架,用于评估自监督学习从语音到 ASR、语言理解、语音翻译和情感识别的影响,重点关注法语中的语音技术,通过实验表明,SSL 对大多数语音任务都是有益的,但不是所有任务都是。
Apr, 2021
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
Mar, 2022
该论文介绍了 LeBenchmark 2.0,一个用于评估和构建搭载自监督学习的法语语音技术的开源框架,其中包括大量不同类型的语料库,包含长达 14,000 小时的异构语音数据,十个预训练的 SSL wav2vec 2.0 模型,与社区共享的可学习参数介于 2600 万到 10 亿之间,并提供六个下游任务的评估协议以补充现有基准。LeBenchmark 2.0 还对针对语音的预训练 SSL 模型提供了独特的视角,包括冻结与微调的下游模型、任务不可知与任务特定的预训练模型,并讨论了大规模模型训练的碳足迹。
Sep, 2023
为了在语音处理领域建立一套系统化的自监督学习模型,该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ,通过优化基于共享模型的轻量化预测头以及自监督学习的表征表示,实现跨范围的语音处理任务优异的表现,同时也发布了该项技术以推进自监督学习的研究。
May, 2021
ML-SUPERB~2.0 是一个新的基准系统,用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能,它发现了 ML-SUPERB 设置的性能改进,但性能取决于下游模型设计,并且在语言和数据集之间存在大的性能差异,表明需要更有针对性的方法来改进多语言 ASR 性能。
Jun, 2024
该研究探索了自监督学习模型在捕捉语音和说话者表示方面的能力,并发现具体层次的语音模型更专注于捕捉语言信息,而说话者模型则更注重对说话者表示的提炼。
Jan, 2024
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型 HuBERT、Wav2vec2.0 和 WaveLM 进行了实验,得到了较好的效果。
Jun, 2022
自我监督学习在发音验证中表现出与有监督系统相近的性能,本研究通过对预训练的 WavLM 进行自我监督有监督微调并使用伪标签,实现了语音表示学习中的有监督性能,取得了 0.99%的 EER,接近有监督基线 0.94%的 EER。
Jun, 2024