在低资源条件下调查预训练音频编码器

May, 2023

在低资源条件下调查预训练音频编码器

Investigating Pre-trained Audio Encoders in the Low-Resource Condition

Hao Yang, Jinming Zhao, Gholamreza Haffari, Ehsan Shareghi

TL;DR使用三种最先进的语音编码器，Wav2vec2、WavLM 和 Whisper，对于 7 个语音理解和生成任务在低资源环境下进行了全面的实验，研究结果表明，Whisper 编码器在执行与内容相关的任务时具有最好的性能和收敛速度。

Abstract

pre-trained speech encoders have been central to pushing state-of-the-art results across various speech understanding and generation tasks. Nonetheless, the capabilities of these encoders in →

pre-trained speech encoders low-resource settings speech understanding and generation tasks task performance whisper encoder

发现论文，激发创造

低资源命名实体识别的预训练编码器比较研究

该研究比较了不同策略下的预训练编码器在低数据量情境下的命名实体识别表现，结果表明编码器表现存在显著差异，并需要结合具体场景进行评估选择。

Apr, 2022

预训练语音编码器的自监督重连：在语音处理中以更少标签更快微调

本文针对预训练语音编码器中的表示空间进行了研究，并通过对比自监督学习构建正对，以实现对表示空间的改进，进而在低资源环境下提高了语音处理任务的收敛速度和表现。

Oct, 2022

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

零资源混合语言音频基准测试：使用语音句对进行多种口语语言测试

我们介绍了一个新的零资源代码切换语音基准，旨在直接评估自我监督语音编码器的代码切换能力。我们展示了一个以离散单元上的语言建模为基线系统，以演示如何以零资源的方式评估语音编码器的代码切换能力。我们的实验包括多种知名的语音编码器，包括 Wav2vec 2.0、HuBERT、XLSR 等。我们研究了预训练语言和模型大小对基准性能的影响。值得注意的是，尽管我们的结果表明，在代码切换场景中，具有多语言预训练的语音编码器（如 XLSR）优于单语变体（Wav2vec 2.0、HuBERT），但它们的代码切换语言能力仍有很大的改进空间。

Oct, 2023

集中力的耳语：通过编码器层优化增强口吃语音分类

近年来，在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法，而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献，解开了 Whisper 在口吃症言语类型分类上的能力，并对较深层编码器的重要性进行了探究。

Nov, 2023

通过横向抑制提升预训练语音模型在低资源语言上的性能

使用來自 Transformer 模型的雙向編碼器表示法，在語言處理方面取得成功後，語音社區也採用了其中的一些開發方法，所以 Wav2Vec 模型被引入來減少取得最新成果所需的數據。基於該認識，本研究通過將精調的密集層替換為受生物過程啟發的側抑制層，提高了預訓練語音模型的性能。我們對羅馬尼亞語，即一種資源較低的語言進行實驗，結果顯示使用側抑制層平均可以減少 12.5% 的字錯誤率，此外，在羅馬尼亞語語音語料庫和 Robin 技術採集語料庫上實現了最新最好成果，分別為 1.78% 和 29.64% 的字錯誤率。

Jun, 2023

注意力还是卷积：用于推理效率的音频语言模型中的 Transformer 编码器

通过本文研究发现，使用简单的自监督预训练音频模型能够实现与复杂的预训练模型相媲美的推理效率，同时采用自注意力模块与卷积模块相结合的语音转换器能够在 ASR 上取得最先进的性能表现，同时使用较低位权重量化技术的神经网络的简单方法，能够提高效率并防止在量化模块之间传播误差。

Nov, 2023

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018

解析 wav2vec 特征编码的黑盒

本文研究了自监督模型 Wav2vec 及其变体在语音领域的各种下游任务中的应用。通过对其卷积特征编码器进行分析，发现该模型可以表示离散的声学单元，从而实现更加高效的语音识别。

Oct, 2022