SpeechT5：面向口语语言处理的统一模态编解码预训练

ACLOct, 2021

SpeechT5：面向口语语言处理的统一模态编解码预训练

SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren...

TL;DR本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架，该框架采用编码器 - 解码器预训练的方法进行自监督学习，具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。

Abstract

Motivated by the success of T5 (Text-To-Text Transfer Transformer) in pre-trained natural language processing models, we propose a unified-modal speecht5 framework that explores the encoder-decoder pre-training f

speecht5 encoder-decoder pre-training self-supervised learning cross-modal vector quantization spoken language processing

发现论文，激发创造

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Nov, 2022

SpeechUT：基于编码器 - 解码器的语音 - 文本预训练中隐藏单元的桥接

本文提出了 SpeechUT 单一模态语音单元与文本预训练模型，使用隐藏单元对齐语音和文本，并分别使用未配对的语音和文本数据进行联合预训练。该方法在自动语音识别和语音翻译任务中取得了最先进的性能。

Oct, 2022

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

零對應跨模態轉換的模塊化語音轉文本翻譯

通过独立训练的编码器和解码器，通过共享的固定大小表示组合，可以在语音到文本翻译中取得竞争力的性能，本研究表明这种方法可以通过多语种训练进一步改进，我们观察到在零 - shot 跨模态语音翻译中显著提高，甚至在几种语言上胜过基于 XLSR 的有监督方法。

Oct, 2023

mT5: 一种大规模多语言预训练文本到文本的转换器

本文介绍了 mT5，这是 T5 的多语言变体，基于新的基于 Common Crawl 的数据集进行预训练，涵盖 101 种语言，并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术，用于在零 - shot 设置中防止 “意外翻译”。

Oct, 2020

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

T-Modules: 零样本跨模态机器翻译的翻译模块

该论文提出了一种新的零样本跨模态翻译方法，通过将多语言语音和文本编码到联合的固定大小的表示空间中，然后比较不同的解码方法以实现跨语言和模态的零样本翻译。尽管有着固定大小的表示空间，但在多个文本和语音翻译任务中取得了非常好的结果，特别是在 Must-C 上零样本语音翻译部分显著改善了最新技术的表现。在该方法的框架中，引入了一个语音解码器，实现了零样本直接语音到语音和文本到语音的翻译。

May, 2022