Speech-XLNet: 用于自我注意力网络的无监督声学模型预训练

Oct, 2019

Speech-XLNet: 用于自我注意力网络的无监督声学模型预训练

Speech-XLNet: Unsupervised Acoustic Model Pretraining For Self-Attention Networks

Xingchen Song, Guangsen Wang, Zhiyong Wu, Yiheng Huang, Dan Su...

TL;DR本文提出了一种无监督预训练方案 “Speech-XLNet”，利用 XLNet 进行自注意力网络（SAN）无监督预训练得到语音表示，可以在混合 SAN / HMM 框架下微调。实验表明，Speech-XLNet 相比于从随机初始化权重训练的模型，在 TIMIT 和 WSJ 任务中都能显著提高 SAN / HMM 的性能，包括收敛速度和识别准确性。

Abstract

self-attention network (SAN) can benefit significantly from the bi-directional representation learning through unsupervised pretraining paradigms such as BERT and →

self-attention network xlnet speech-xlnet acoustic model pretraining bi-directional representation learning

发现论文，激发创造

基于 Transformer 的端到端语音识别中简化的自注意力机制

本文提出了一种简化的自我注意力（SSAN）层，用于 Transformer 模型的端到端语音识别任务中，以降低模型复杂度和维护良好性能，并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明，我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少，在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低，而且在 20000 小时的大规模任务中，模型失去识别性能。

May, 2020

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

自监督自适应多语言语音模型的预训练用于语言和方言识别

预训练的基于 Transformer 的语音模型在下游任务（如自动语音识别和口语语言识别）上表现出了令人瞩目的性能，但领域不匹配的问题仍然是一个挑战。为了解决这个问题，我们提出了自监督自适应预训练（SAPT）来适应下游任务的目标领域和语言。我们将 SAPT 应用于 XLSR-128 模型，并研究了该方法在 SLID 任务中的有效性。实验证明，SAPT 在 FLEURS 基准测试中提高了 XLSR 的性能，尤其是对于少数语言，增益高达 40.1%。我们还在少样本学习设置中对四个不同数据集应用了 SAPT，结果显示我们的方法提高了 XLSR 的样本效率。我们的实验证据强有力地证明，通过自监督实现持续自适应可以提升多语言语音模型的下游性能。

Dec, 2023

无监督跨语言表示学习用于语音识别

XLSR 是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在 wav2vec 2.0 的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

WavLM：用于完整语音处理的大规模自监督预训练

本篇论文提出了一种新的预训练模型 WavLM，通过联合学习掩蔽语音预测和去噪，利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序，使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力，同时也提高了对非 ASR 语音任务的潜力，其在 SUPERB 基准测试上取得了最先进的性能，并为各种语音处理任务带来了显着的改进。

Oct, 2021

XLNet：语言理解的泛化自回归预训练

我们提出了 XLNet—— 一种广义的自回归预训练方法，它通过最大化分解顺序的所有排列的期望似然来学习双向上下文，并且集成了 Transformer-XL 的思想，从而在 20 项任务中胜过了 BERT，包括问题回答、自然语言推断、情感分析和文档排名等方面。

Jun, 2019

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

UniSpeech: 利用标注和非标注数据进行统一语音表示学习

本文提出了一种名为 UniSpeech 的统一预训练方法，利用有标签和无标签数据学习语音表示，其中针对语音结构的有监督 CTC 学习和语音感知对比自监督学习以多任务学习的方式进行。实验结果表明，UniSpeech 在跨语言表征学习方面的有效性超过了自监督预训练和有监督转移学习。

Jan, 2021

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019