基于联合语音 - 文本模型的小样本语音理解

Oct, 2023

基于联合语音 - 文本模型的小样本语音理解

Few-Shot Spoken Language Understanding via Joint Speech-Text Models

Chung-Ming Chien, Mingjiamei Zhang, Ju-Chieh Chou, Karen Livescu

TL;DR通过使用预训练的语音 - 文本模型，本研究发现只需 1 小时标注的语音数据，即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音 - 文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Abstract

Recent work on speech representation models jointly pre-trained with text has demonstrated the potential of improving speech representations by encoding speech and text in a shared space. In this paper, we leverage such shared representations to address the persistent challenge of limi

speech representation models shared representations limited data availability spoken language understanding tasks pre-trained speech-text model

发现论文，激发创造

理解共享的语音文本表示

本文研究基于端到端模型训练语音模型的近期方法进展，通过两种分析方法进一步扩展了对共享语音文本表示的理解：第一是研究了自由领域适应的极限，在此基础上发现针对语音文本对齐的时长模型是最重要的，这有助于学习共享语音文本表示；第二是比较了单一（语音或文本）编码器和共享编码器的激活相似性，发现共享编码器能够学习到更紧凑重叠的语音文本表示，这也是 Maestro 共享语音文本表示性能优异的部分原因。

Apr, 2023

SpeechLM: 用非配对文本数据增强的语音预训练

提出了一种跨模态的语音和语言模型，使用两种不同的离散标记器来处理语音和文本模态，取得了优异的成绩，尤其表现出色的是在 CoVoST-2 语音翻译任务上。

Sep, 2022

面向语音单元和文本的联合语言建模

探索联合的语言建模方法，比较不同语音分词方法和语音 - 文本混合数据构建方法，通过自动指标评估联合语言模型的混合效果，在不同模态下对下游口语理解任务进行微调并测试其性能，结果表明通过混合我们提出的语音单元和文本的方法，联合语言模型在口语理解任务上超过了单独语音的基准模型，并显示出跨模态的零 - shot 传递能力。

Oct, 2023

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

改进不需要对齐的联合语音文本表示

通过跨模态表示空间的概念，在文本提示的图像生成中取得了惊人的进展。本文提出，联合语音文本编码器通过忽略序列长度差异，能够实现一致的跨模态表示，并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。

Aug, 2023

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

mSLAM：面向文本和语音的大规模多语言联合预训练

mSLAM 是一种多语言语音和语言模型，通过在多种语言的大量无标记语音和文本上联合预训练学习跨语言跨模式表示。

Feb, 2022

口语对话建模的统一语音文本预训练

提出了一个名为统一口语对话模型（USDM）的广泛的语音文本模型框架，用于生成与给定输入语音相关的有机韵律特征的连贯口语回应，而不依赖于自动语音识别（ASR）或文本到语音（TTS）解决方案。该方法利用底层大型语言模型所展示的推理链能力，采用多步骤的语音文本推理方案。经过自动和人工评估表明，该方法在生成自然流畅的口语回应方面非常有效，优于之前的和级联的基线方法。详细的比较研究显示，尽管级联方法在单独的组件上更强大，但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。

Feb, 2024