token2vec: 一个基于自监督联合预训练的框架，使用非配对语音和文本进行训练

Oct, 2022

token2vec: 一个基于自监督联合预训练的框架，使用非配对语音和文本进行训练

token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text

Xianghu Yue, Junyi Ao, Xiaoxue Gao, Haizhou Li

TL;DR本文提出了一种新型的基于离散语音表示的非配对语音和文本联合预训练框架，即 Token2Vec，通过模态不可知的 Transformer 编码器和令牌级掩码语言建模（tMLM）进行预训练，在非 ASR 任务上也表现出很好的可转移性，相对于各种仅语音预训练的基线，Token2Vec 的性能显著提高，最高相对 WER 降低了 17.7%。

Abstract

self-supervised pre-training has been successful in both text and speech processing. Speech and text offer different but complementary information. The question is whether we are able to perform a speech-text joint pre-

self-supervised pre-training speech-text joint pre-training token2vec modality-agnostic transformer encoder spoken intent classification

发现论文，激发创造

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

data2vec：自监督学习在语音、视觉和语言中的通用框架

data2vec 是一个使用标准 Transformer 结构，在语音、NLP 或计算机视觉中使用相同的学习方法，能够成功预测全面输入数据的潜在表示的框架，通过用遮掩的输入数据进行自我蒸馏设置，该方法大大提高了音频识别、图像分类和文本理解等任务的性能。

Feb, 2022

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

一种利用非配对语音和文本进行低资源自动语音识别的补充联合训练方法

本篇论文介绍了如何利用未配对的语音和文本数据，通过生成相应的缺失部分进行模型训练，并提出了一种称为 CJT++ 的补充联合训练方法，包括伪标签的标签掩蔽和合成音频的梯度限制，以应对与真实数据的偏差。实验结果表明，相比于仅使用语音进行训练，所提出的基本 CJT 方法在干净 / 其他测试集上实现了显著的性能提升，CJT++ 重新训练进一步增强了性能，并在极低资源情况下特别优于相同模型大小和波束大小的 wav2vec2.0 模型。

Apr, 2022

W2v-BERT: 结合对比学习和掩码语言建模进行自监督语音预训练

本文介绍了 w2v-BERT，一个基于 Masked Language Modeling 的 self-supervised 模型，结合了对比学习和 MLM，用于自我训练语音识别模型。通过对 Libri-Light 60k 语料库进行训练，该模型在测试数据集上相对于其他最先进的预训练模型减少了 5% 至 10% 的相对词错误率，并且在谷歌语音搜索数据集上相对于内部 Conformer-based wav2vec 2.0 模型提高了超过 30% 的相对性能。

Aug, 2021

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023