SpeechLM: 用非配对文本数据增强的语音预训练

Sep, 2022

SpeechLM: 用非配对文本数据增强的语音预训练

SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren...

TL;DR提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Abstract

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal

speechlm pre-training textual data phoneme-unit tokenizer hidden-unit tokenizer

发现论文，激发创造

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

token2vec: 一个基于自监督联合预训练的框架，使用非配对语音和文本进行训练

本文提出了一种新型的基于离散语音表示的非配对语音和文本联合预训练框架，即 Token2Vec，通过模态不可知的 Transformer 编码器和令牌级掩码语言建模（tMLM）进行预训练，在非 ASR 任务上也表现出很好的可转移性，相对于各种仅语音预训练的基线，Token2Vec 的性能显著提高，最高相对 WER 降低了 17.7%。

Oct, 2022

SpeechUT：基于编码器 - 解码器的语音 - 文本预训练中隐藏单元的桥接

本文提出了 SpeechUT 单一模态语音单元与文本预训练模型，使用隐藏单元对齐语音和文本，并分别使用未配对的语音和文本数据进行联合预训练。该方法在自动语音识别和语音翻译任务中取得了最先进的性能。

Oct, 2022

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024

面向语音单元和文本的联合语言建模

探索联合的语言建模方法，比较不同语音分词方法和语音 - 文本混合数据构建方法，通过自动指标评估联合语言模型的混合效果，在不同模态下对下游口语理解任务进行微调并测试其性能，结果表明通过混合我们提出的语音单元和文本的方法，联合语言模型在口语理解任务上超过了单独语音的基准模型，并显示出跨模态的零 - shot 传递能力。

Oct, 2023

基于联合语音 - 文本模型的小样本语音理解

通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

使用大型语言模型增强口语理解的文本

使用现有和新领域的非配对文本可以提高已有和新领域的口语语义解析的性能，同时，通过提示大型语言模型生成非配对文本，可以进一步提升性能。

Sep, 2023

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

口语对话理解的语音 - 文本对话预训练与显式跨模态对齐

本文提出了第一种语音 - 文本对话预训练模型 SPECTRA，在输入上进行了一些优化，如引入时间信息，增加上下文理解能力，并通过实验进行了充分验证，展示了 SPECTRA 模型在语音 - 文本对话中学习言语 - 文本对齐和多轮对话上下文的能力比其他模型更强。

May, 2023