DeCoAR 2.0：具有向量量化的深度语境化声学表示

Dec, 2020

DeCoAR 2.0：具有向量量化的深度语境化声学表示

DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization

Shaoshi Ling, Yuzong Liu

TL;DR文章介绍了使用语音表征学习的方法在没有标签的数据上训练语音识别模型的新方法 DeCoAR 2.0。该模型采用 Transformers 编码模型，引入了向量量化层来对语音表征进行训练，并在多个数据稀疏的场景下表现出一致的提高。

Abstract

Recent success in speech representation learning enables a new way to leverage unlabeled data to train speech recognition model. In speech representation learning, a large amount of unlabeled data is used in a se

speech recognition speech representation learning self-supervised learning deep contextualized acoustic representation vector quantization

发现论文，激发创造

深度上下文化声学表示用于半监督语音识别

我们提出了一种新的半监督自动语音识别方法，利用表示学习从无标注音频数据中重建滤波器组特征，并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统，实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。

Dec, 2019

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

Wav2vec-C: 一种用于语音表征学习的自监督模型

Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术，训练模型在未标记数据和标记数据上表现都很好。

Mar, 2021

具有上下文目标表示的视觉、语音和语言自监督高效学习

本文提出 data2vec 2.0 算法，通过利用丰富的上下文目标表示，实现了在几个模态之间进行泛化的快速自监督学习，进而在图像分类、语音识别等领域取得了很好的实验效果。

Dec, 2022

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

DeCoR: 通过预测早期音频编码来避免知识遗忘

本文介绍一种名为 DeCoR 的新的持续音频表征学习方法，通过预测延迟码书的量化索引，间接从早期模型蒸馏出知识到最新模型，从而提高了声学场景分类的准确性，并与持续自监督表示学习相融合。

May, 2023

AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。

Feb, 2023

自监督预训练在语音识别中的有效性

本文比较了自监督表示学习算法 - 无量化学习和显式量化学习，发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表，并在随后的 BERT 训练中学习了有效的表示方法，从而实现了训练量极小的语音识别系统。

Nov, 2019

自回归联合训练用于离散语音表示学习

通过生成模型和信息论的联合训练，实现了对离散语音表示的学习，发现该方法学习的语音表示与语音单元高度相关

Mar, 2022