LauraGPT: 听、关注、理解与重建音频的 GPT

Oct, 2023

LauraGPT: 听、关注、理解与重建音频的 GPT

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT

Jiaming Wang^, Zhihao Du^, Qian Chen, Yunfei Chu, Zhifu Gao...

TL;DR本文提出了 LauraGPT，一个统一的 GPT 模型，用于音频识别、理解和生成，实现了在多个音频处理基准测试上与现有 SOTA 模型相媲美或卓越的性能。

Abstract

Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks. However, there has been limited research on applying similar frameworks to audio tasks. Previously proposed large language models for →

gpt models audio tasks lauragpt multitask learning audio processing

发现论文，激发创造

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

具高效的分层变换器的生成式预训练语音语言模型

我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST)，它将音频波形量化为两种不同类型的离散语音表示，并在层次变压器架构中进行集成，从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练，GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示，GPST 可以产生自然连贯的个性化语音，展示了上下文学习能力。此外，我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明，GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。

Jun, 2024

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

本文提出了 SpeechGPT，一个具有内在跨模式对话能力的大型语言模型，可以感知和生成多模式内容，并演示了语音 + 文本的多模态交互示例。

May, 2023

数据驱动语音增强方法自动文献综述的实验

本研究通过使用预训练生成式转换器 (GPT) 模型自动进行文献调研，评估在数据驱动的语音增强方法领域的 116 篇文章上展现的模型的能力和局限性，尽管自动化文献调研在声学领域具有巨大潜力，但仍需要改进以更清晰准确地回答技术问题。

Oct, 2023

PandaGPT：一种模型以指导全为本

PandaGPT 是一个使用视觉和听觉指令的方法来提高大型语言模型的能力，可以同时接收多模态输入并进行自然的语言生成，它能够执行任务如生成详细的图像描述和根据视频撰写故事等，并能连接图像 / 视频中物体的外观和音频中物体的声音，从而表现出跨模态的行为。

May, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

利用预训练生成语言模型的视频对话

本文提出了一种基于 GPT-2 模型的框架，将视频与文本表示结合成连续、有结构的序列，并利用其 fine-tuning 能力来解决视频对话中的挑战，从而在 Audio-Visual Scene-Aware Dialogues 基准测试中取得了显著的改进。

Jun, 2020

增强的说话对话的语音模型中的次语言学特征

大型语言模型在聊天、推理和问答等任务中表现出卓越的能力，然而标准的语言模型可能会忽略关键的语用信息，如情感、情感和口语风格，而这些信息对于实现自然、类似人类的口语对话非常重要，特别是当这些信息通过声学提示来传达时。因此，我们提出了一种增强语用的生成预训练变压器（ParalinGPT），该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示，在序列化的多任务多模态框架中。实验结果表明，所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外，利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7％、12.0％和 3.5％的相对改进。

Dec, 2023

TurnGPT：基于 Transformer 的口语对话转换预测语言模型

本文介绍了 TurnGPT 语言模型，其通过使用对话的语境和完整性，能够更好地预测口语对话中的转向。我们展示了该模型在多种书面和口头对话数据集上的表现，并证明其胜过之前工作中使用的两个基线模型。此外，我们还研究了模型的各种特性，如注意力和梯度分析，最终认为该模型不仅能够检测转向，而且能够预测完结。

Oct, 2020