SUPERB-SG: 语音处理语义与生成能力的增强通用性能基准

ACLMar, 2022

SUPERB-SG: 语音处理语义与生成能力的增强通用性能基准

SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities

Hsiang-Sheng Tsai, Heng-Jui Chang, Wen-Chin Huang, Zili Huang, Kushal Lakhotia...

TL;DR介绍 SUPERB-SG - 一个新的基准测试，用于评估预训练模型的语义和生成能力，并使用轻量级方法测试预训练模型所学习表示的鲁棒性，以更全面地了解模型的效果和通用性。

Abstract

transfer learning has proven to be crucial in advancing the state of speech and natural language processing research in recent years. In speech, a model pre-trained by self-supervised learning transfers remarkably well on multiple tasks. However, the lack of a consistent →

transfer learning superb-sg pre-trained models evaluation methodology semantics

发现论文，激发创造

SUPERB: 语音处理通用性能基准

为了在语音处理领域建立一套系统化的自监督学习模型，该研究引入了 Speech processing Universal PERformance Benchmark (SUPERB) ，通过优化基于共享模型的轻量化预测头以及自监督学习的表征表示，实现跨范围的语音处理任务优异的表现，同时也发布了该项技术以推进自监督学习的研究。

May, 2021

ML-SUPERB: 多语言语音通用性能基准

本文提出的多语种 SUPERB (ML-SUPERB) 利用冻结的自我监督学习 (SSL) 特征和简单的框架，考虑了 143 种语言（从高资源到濒危），并考虑了自动语音识别和语言识别。我们发现语音 SSL 模型与 FBANK 特征相比可以显著提高性能，但我们发现多语种模型并不总是比它们的单语种模型表现更好。我们将发布 ML-SUPERB 作为挑战，以组织数据集和可复制的训练脚本，用于未来的多语种表示研究。

May, 2023

SUPERB @ SLT 2022: 自监督语音表示学习通用性与效率挑战

介绍了在 2022 SLT 会议上举行的超级挑战赛（SUPERB Challenge），旨在学习自监督语音表征以获得更好的性能，泛化性和效率。该挑战建立在超级基准之上，并实施度量标准来测量自监督学习表征的计算需求，并评估其在不同的超级任务上的泛化性能和性能。该挑战对流行的语音处理任务进行了全面的覆盖，从语音和说话人识别到音频生成和语义理解。

Oct, 2022

2023 ML-SUPERB 挑战赛的发现：跨更多语言和领域的预训练和评估

2023 年多语言演讲通用性能基准（ML-SUPERB）挑战扩展了备受赞誉的 SUPERB 框架，强调自监督模型在多语音识别和语言识别中的应用。挑战包括一个研究轨道，重点是将 ML-SUPERB 应用于特定的多语言主题，一个挑战轨道，用于模型提交，以及一个新语言轨道，在这个轨道上，语言资源研究人员可以贡献和评估他们的低资源语言数据，以适应多语音识别的最新进展。研究结果表明，仅仅提高模型规模并非多语音任务的终极解决方案，多种语音 / 语调类型在多语音处理中存在重大挑战。

Oct, 2023

Dynamic-SUPERB：面向语音的动态、协作和全面的教学调优基准

为了提供评价语音处理任务通用模型的基准，我们介绍了 Dynamic-SUPERB，该基准通过结合 33 个任务和 22 个数据集，提供了多维度的综合评估平台，并提出了一些建立基准的方法。评估结果表明，虽然这些基准在已知任务上表现得合理，但在未知任务上表现不佳，需要进一步的改进。

Sep, 2023

MiniSUPERB：自监督语音模型轻量级基准测试

本研究提出了 MiniSUPERB，该基准可以有效评估自监督语音模型的能力，同时极大地降低了计算成本。

May, 2023

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0 是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了 ML-SUPERB 设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言 ASR 性能。

Jun, 2024

IndicSUPERB：印度语言语音处理通用性能基准

该篇论文主要介绍了自然语言理解和语音语言理解中使用的 GLUE 数据集和 SUPERB 基准集，同时提供了 IndicSUPERB 基准集，为印度语音语言理解模型的开发做出贡献。该论文探讨了使用自我监督模型在各种印度语言中进行的训练和评估，证明了 Self-supervised 模型在语言识别任务中的优势。

Aug, 2022

学习语音的通用非语义表示

本篇文章提出了对非语义任务进行语音表征对比的基准，并提出了一种基于无监督三元组损失目标的表征方法，该方法在基准测试中表现优异，甚至在许多迁移学习任务中超越了最新技术水平；

Feb, 2020

AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准

音频 - 视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了 AV-SUPERB 基准，它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上，能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型，并表明这些模型都不能泛化到所有任务，强调了未来需要改进通用模型性能的研究的必要性。此外，我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试，提供了评估代码和模型提交平台，以鼓励进一步进行音频 - 视觉学习的研究。

Sep, 2023