MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

Nov, 2022

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition

Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan...

TL;DR该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Abstract

In this paper, we propose a novel multi-modal multi-task encoder-decoder pre-training framework (MMSpeech) for mandarin automatic

mandarin speech recognition multi-modal pre-training phoneme

发现论文，激发创造

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

SpeechT5：面向口语语言处理的统一模态编解码预训练

本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架，该框架采用编码器 - 解码器预训练的方法进行自监督学习，具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。

Oct, 2021

利用文本数据增强语音转文本任务的通用多任务学习框架

本文提出了一种多任务学习框架，利用文本数据来提高自动语音识别和语音翻译的性能，其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中，该方法相对于基线线下降了 10~15% 的词错误率，在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。

Oct, 2020

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022

混合监督语音处理的预训练大型语言模型的离散多模态变换器

本文介绍了一种仅有解码器的离散多模态语言模型（DMLM），可以灵活应用于多个任务（ASR，T2S，S2TT 等）和模态（文本，语音，视觉），并探索了离散多模态模型的几个关键方面，包括损失函数、权重初始化、混合监督训练和码本。结果表明，通过组合监督和无监督训练，DMLM 在多个任务和数据集上显著受益。此外，对于 ASR，它从预训练的大型语言模型（LLM）和由 Whisper 激活导出的码本中受益。

Jun, 2024

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022