LauraGPT: 听、关注、理解与重建音频的 GPT
本文提出了一种名为 AudioGPT 的多模 AI 系统,该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务,以及支持口语对话的输入 / 输出接口(ASR,TTS),并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。
Apr, 2023
我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST),它将音频波形量化为两种不同类型的离散语音表示,并在层次变压器架构中进行集成,从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练,GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示,GPST 可以产生自然连贯的个性化语音,展示了上下文学习能力。此外,我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明,GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。
Jun, 2024
本文提出了 SpeechGPT,一个具有内在跨模式对话能力的大型语言模型,可以感知和生成多模式内容,并演示了语音 + 文本的多模态交互示例。
May, 2023
本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研,评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性,尽管自动化文献调研在声学领域具有巨大潜力,但仍需要改进以更清晰准确地回答技术问题。
Oct, 2023
PandaGPT 是一个使用视觉和听觉指令的方法来提高大型语言模型的能力,可以同时接收多模态输入并进行自然的语言生成,它能够执行任务如生成详细的图像描述和根据视频撰写故事等,并能连接图像 / 视频中物体的外观和音频中物体的声音,从而表现出跨模态的行为。
May, 2023
利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域的口述内容,并通过变化语言模型提示策略产生不同风格的摘要,实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。
Jun, 2024
本文提出了一种基于 GPT-2 模型的框架,将视频与文本表示结合成连续、有结构的序列,并利用其 fine-tuning 能力来解决视频对话中的挑战,从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。
Jun, 2020
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
本文介绍了 TurnGPT 语言模型,其通过使用对话的语境和完整性,能够更好地预测口语对话中的转向。我们展示了该模型在多种书面和口头对话数据集上的表现,并证明其胜过之前工作中使用的两个基线模型。此外,我们还研究了模型的各种特性,如注意力和梯度分析,最终认为该模型不仅能够检测转向,而且能够预测完结。
Oct, 2020