PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM
本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统,相比当前独立的聊天机器人和文本到语音(TTS)模块的级联流水线,更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型(LLMs),展示其在语音理解能力上的潜力,并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明,基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。
Sep, 2023
提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多步骤的语音文本推理方案。经过自动和人工评估表明,该方法在生成自然流畅的口语回应方面非常有效,优于之前的和级联的基线方法。详细的比较研究显示,尽管级联方法在单独的组件上更强大,但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。
Feb, 2024
在口语对话中,即使两个当前对话相同,它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架,旨在教导 LLMs 理解和适当回应不同的语言风格,并使用 StyleTalk 数据集进行训练,通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格,实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。
Feb, 2024
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024
本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM),利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明,该模型可以显著提高韵律和内容建模,并能够生成自然、有意义和连贯的语音。
Sep, 2021
大型语言和语音模型 (LLaSM) 是一个经过端到端训练的大规模多模态语音语言模型,具备跨模态对话能力,能够遵循语音和语言指令。LLaSM 通过提供更便捷和自然的方式,展示了人类与人工智能进行互动的方式。
Aug, 2023
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
这篇论文提出了一种基于 LlM 的对话式 SimulMT 框架,通过多轮对话解码提高 LLM 的推理效率,在两个 SimulMT 基准测试中展示了 LLM 在翻译质量上的优越性以及与专用 SimulMT 模型相当的计算延迟。
Feb, 2024