检索增强的端到端口语对话模型
本文介绍了一种使用 Speech2Text 适配器的联合语音和语言模型,用于桥接语音和语言表示之间的差距,并改进对话状态跟踪性能(DST),并通过 Speech2Entity 检索器增强了 SLM 的性能。
Jun, 2023
该研究旨在构建一种新型的自动预测语音理解系统,该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性,并采用自回归模型和无序训练方法,以应对不同 SLU 任务的高效率和低延迟问题。实验证明,该系统与任务特定的分类器相当,并可有效整合对话环境以进一步提高 SLU 性能。
May, 2023
我们提出了一种联合语音与语言模型(SLM),它是一种多任务、多语种、双模态的模型,充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结,最大限度地保留它们的能力,并只训练一个只包含 1%(156M)基础模型参数的简单适配器,从而在传统任务(如语音识别和语音翻译)上取得了强大的性能,同时还具备了零 - shot 指导的新颖能力,能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明,预训练的语音和语言模型之间的表征差距可能比人们预期的要小,并可以通过简单的适应机制来弥合。因此,SLM 不仅训练高效,而且继承了不同模态基础模型已经具备的强大能力。
Sep, 2023
基于大型语言模型的少样本对话状态跟踪研究,通过有效且高效的对话检索器,在没有细调数据的情况下,利用对话的文本摘要进行检索并获得显著提升。
Feb, 2024
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
通过在推理过程中引入大规模数据存储,检索增强的语言模型(retrieval-augmented LMs)可以更可靠、适应性更强且更具可追溯性,然而目前在超越知识密集型任务(如问答)以外的领域,检索增强的语言模型尚未被广泛采用,这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。
Mar, 2024
本文提出一种在已有的 ASR 模型中添加检索语言模型,以直接从外部文本语料库中检索可能的完成语来改善模型性能,并使用适配器将这些完成语集成到后续的预测中,避免了重新训练的计算开销。该模型在问答数据集和特定领域命名实体识别等任务上表现均优于现有的浅层融合方法。
Mar, 2023
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决用户查询中表现出高达 98.8%的信息检索准确性。
May, 2024
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
我们提出了一种新颖的具有多任务和上下文学习能力的语音增强语言模型(SALM)。SALM 由一个固定的文本语言模型,一个音频编码器,一个模态适配器模块和适应语音输入和关联任务指令的 LoRA 层组成。统一的 SALM 不仅在自动语音识别(ASR)和语音翻译(AST)等特定任务上达到了与 Conformer 基线相当的性能,还展现了零 - shot 的上下文学习能力,通过 ASR 和 AST 的关键词增强任务进行了验证。此外,我们提出了语音监督上下文训练方法,弥合了 LLM 训练和下游语音任务之间的差距,进一步提升了语音到文本模型的上下文学习能力。所提出的模型通过 NeMo 工具包开源。
Oct, 2023