MiniSUPERB:自监督语音模型轻量级基准测试
为了在语音处理领域建立一套系统化的自监督学习模型,该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ,通过优化基于共享模型的轻量化预测头以及自监督学习的表征表示,实现跨范围的语音处理任务优异的表现,同时也发布了该项技术以推进自监督学习的研究。
May, 2021
介绍 SUPERB-SG - 一个新的基准测试, 用于评估预训练模型的语义和生成能力,并使用轻量级方法测试预训练模型所学习表示的鲁棒性,以更全面地了解模型的效果和通用性。
Mar, 2022
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进SSL-based预训练模型的泛化性能提供指导。
Mar, 2022
介绍了在2022 SLT会议上举行的超级挑战赛(SUPERB Challenge),旨在学习自监督语音表征以获得更好的性能,泛化性和效率。该挑战建立在超级基准之上,并实施度量标准来测量自监督学习表征的计算需求,并评估其在不同的超级任务上的泛化性能和性能。该挑战对流行的语音处理任务进行了全面的覆盖,从语音和说话人识别到音频生成和语义理解。
Oct, 2022
本文提出的多语种SUPERB (ML-SUPERB)利用冻结的自我监督学习 (SSL) 特征和简单的框架,考虑了143种语言(从高资源到濒危),并考虑了自动语音识别和语言识别。我们发现语音SSL模型与FBANK特征相比可以显著提高性能,但我们发现多语种模型并不总是比它们的单语种模型表现更好。我们将发布ML-SUPERB作为挑战,以组织数据集和可复制的训练脚本,用于未来的多语种表示研究。
May, 2023
本文研究了自我监督学习在语音任务中的应用,特别是其在下游任务中的性能表现和解码器架构的影响。结果发现,使用不同的解码器架构可能会导致表现结果的显著变化,使用局限的解码器也可能会适得其反地增加SSL模型的大小。
Jun, 2023
本研究的目标是将自监督学习模型优化为适应学术限制,它们只需要使用8个GPU而不是32个GPU就可以实现与原始模型相近的性能,并探索了一种使用ASR模型跳过第一次预训练迭代的半监督路线。
Jun, 2023
自监督学习利用大规模的无标签语音数据集,在少量标注数据的情况下达到令人印象深刻的性能。本研究探讨了在探测头结构改变时,基准测试结果如何受到影响。通过评估大容量的探测头,显示了它们对性能、推理成本、泛化能力和多级特征利用的影响。
Aug, 2023
近年来,自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法,通过分析 HuBERT 预训练的计算成本并引入一系列效率优化,实现了与原始实现相比,无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外,我们在 Fast-HuBERT 中探索了两种技术,并展示了与之前工作相一致的改进效果。
Sep, 2023
ML-SUPERB~2.0是一个新的基准系统,用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能,它发现了ML-SUPERB设置的性能改进,但性能取决于下游模型设计,并且在语言和数据集之间存在大的性能差异,表明需要更有针对性的方法来改进多语言ASR性能。
Jun, 2024