检索增强的端到端口语对话模型

Feb, 2024

Retrieval Augmented End-to-End Spoken Dialog Models

Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao...

TL;DR我们将先前开发的 SLM 模型应用于语音对话应用中，其中对话状态直接从音频信号中推断，通过检索增强的 SLM（ReSLM）改善了识别领域特定实体的困难，提升了模型性能，特别在对话状态跟踪和具有偏置能力的语音自动识别方面具有广泛适用性。

Abstract

We recently developed slm, a joint speech and language model, which fuses a pretrained foundational speech model and a large language model (LLM), while preserving the in-context learning capability intrinsic to the pretrained LLM. In this paper, we apply →

slm speech dialog applications retrieval augmented slm dialog state tracking contextual asr

发现论文，激发创造

语音转文本适配器和语音到实体检索器增强的 LLMs 用于语音理解

本文介绍了一种使用 Speech2Text 适配器的联合语音和语言模型，用于桥接语音和语言表示之间的差距，并改进对话状态跟踪性能（DST），并通过 Speech2Entity 检索器增强了 SLM 的性能。

Jun, 2023

将口语理解任务与集成对话历史联合建模

该研究旨在构建一种新型的自动预测语音理解系统，该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性，并采用自回归模型和无序训练方法，以应对不同 SLU 任务的高效率和低延迟问题。实验证明，该系统与任务特定的分类器相当，并可有效整合对话环境以进一步提高 SLU 性能。

May, 2023

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023

对话状态跟踪中有效且高效的会话检索与隐式文本摘要

基于大型语言模型的少样本对话状态跟踪研究，通过有效且高效的对话检索器，在没有细调数据的情况下，利用对话的文本摘要进行检索并获得显著提升。

Feb, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

端到端 ASR 适应的即时文本检索

本文提出一种在已有的 ASR 模型中添加检索语言模型，以直接从外部文本语料库中检索可能的完成语来改善模型性能，并使用适配器将这些完成语集成到后续的预测中，避免了重新训练的计算开销。该模型在问答数据集和特定领域命名实体识别等任务上表现均优于现有的浅层融合方法。

Mar, 2023

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

SALM: 基于语境学习的语音增强语言模型用于语音识别和翻译

我们提出了一种新颖的具有多任务和上下文学习能力的语音增强语言模型（SALM）。SALM 由一个固定的文本语言模型，一个音频编码器，一个模态适配器模块和适应语音输入和关联任务指令的 LoRA 层组成。统一的 SALM 不仅在自动语音识别（ASR）和语音翻译（AST）等特定任务上达到了与 Conformer 基线相当的性能，还展现了零 - shot 的上下文学习能力，通过 ASR 和 AST 的关键词增强任务进行了验证。此外，我们提出了语音监督上下文训练方法，弥合了 LLM 训练和下游语音任务之间的差距，进一步提升了语音到文本模型的上下文学习能力。所提出的模型通过 NeMo 工具包开源。

Oct, 2023