语音转文本适配器和语音到实体检索器增强的 LLMs 用于语音理解
我们将先前开发的 SLM 模型应用于语音对话应用中,其中对话状态直接从音频信号中推断,通过检索增强的 SLM(ReSLM)改善了识别领域特定实体的困难,提升了模型性能,特别在对话状态跟踪和具有偏置能力的语音自动识别方面具有广泛适用性。
Feb, 2024
我们提出了一种联合语音与语言模型(SLM),它是一种多任务、多语种、双模态的模型,充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结,最大限度地保留它们的能力,并只训练一个只包含 1%(156M)基础模型参数的简单适配器,从而在传统任务(如语音识别和语音翻译)上取得了强大的性能,同时还具备了零 - shot 指导的新颖能力,能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明,预训练的语音和语言模型之间的表征差距可能比人们预期的要小,并可以通过简单的适应机制来弥合。因此,SLM 不仅训练高效,而且继承了不同模态基础模型已经具备的强大能力。
Sep, 2023
本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间,实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。
Oct, 2021
通过 Descriptive Speech-Text Alignment 方法,本研究提出了一种新型的语音语言模型,可以解释和生成全面的自然语言描述,从而促进对语音的语言和非语言特征的理解,并在 Dynamic-SUPERB 基准测试中展现出卓越性能,尤其是在未见过的任务上的泛化能力,同时发现对齐模型具有零样本指令跟随能力,无需显式调整语音指令,这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。
Jun, 2024
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法,用以训练一个端到端的语音 - to - 意图系统,以减少数据稀疏问题。在实验中,作者通过改进后的 CTC-S2I 系统,使其与传统的级联式 SLU 系统具有相当的匹配性能。
Oct, 2020
将无监督预训练应用于语言理解,在语音和文本之间建立单一模型,包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进,同时在 GLUE 任务中也取得了不俗的竞争力。
Oct, 2021
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023