语音转文本适配器和语音到实体检索器增强的 LLMs 用于语音理解

Jun, 2023

语音转文本适配器和语音到实体检索器增强的 LLMs 用于语音理解

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao...

TL;DR本文介绍了一种使用 Speech2Text 适配器的联合语音和语言模型，用于桥接语音和语言表示之间的差距，并改进对话状态跟踪性能（DST），并通过 Speech2Entity 检索器增强了 SLM 的性能。

Abstract

large language models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a →

large language models speech and language model speech2text adapter entity retriever dialog state tracking

发现论文，激发创造

检索增强的端到端口语对话模型

我们将先前开发的 SLM 模型应用于语音对话应用中，其中对话状态直接从音频信号中推断，通过检索增强的 SLM（ReSLM）改善了识别领域特定实体的困难，提升了模型性能，特别在对话状态跟踪和具有偏置能力的语音自动识别方面具有广泛适用性。

Feb, 2024

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

DeSTA: 通过描述性语音文本对齐提升语音语言模型

通过 Descriptive Speech-Text Alignment 方法，本研究提出了一种新型的语音语言模型，可以解释和生成全面的自然语言描述，从而促进对语音的语言和非语言特征的理解，并在 Dynamic-SUPERB 基准测试中展现出卓越性能，尤其是在未见过的任务上的泛化能力，同时发现对齐模型具有零样本指令跟随能力，无需显式调整语音指令，这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。

Jun, 2024

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

利用非成对文本数据训练端到端语音意图系统

本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法，用以训练一个端到端的语音 - to - 意图系统，以减少数据稀疏问题。在实验中，作者通过改进后的 CTC-S2I 系统，使其与传统的级联式 SLU 系统具有相当的匹配性能。

Oct, 2020

SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器

将无监督预训练应用于语言理解，在语音和文本之间建立单一模型，包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进，同时在 GLUE 任务中也取得了不俗的竞争力。

Oct, 2021

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

ASR 纠错和语言理解的联合上下文建模

该研究提出了一种多任务神经网络方法，通过对话系统中的语音识别输出进行上下文语言纠正和语言理解以改善两个任务的性能，从而提高自动语音识别的质量。

Jan, 2020