AudioGPT：理解与生成语音、音乐、声音和说话人头像

Apr, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang...

TL;DR本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Abstract

large language models (LLMs) have exhibited remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. Despite the recent success, current LLMs are not capable of processing complex audio information or conducting spoken conv

large language models audiogpt multi-modal ai system audio information processing spoken dialogue

发现论文，激发创造

LauraGPT: 听、关注、理解与重建音频的 GPT

本文提出了 LauraGPT，一个统一的 GPT 模型，用于音频识别、理解和生成，实现了在多个音频处理基准测试上与现有 SOTA 模型相媲美或卓越的性能。

Oct, 2023

SpeechGPT：赋能大型语言模型具备内在的跨模态对话能力

本文提出了 SpeechGPT，一个具有内在跨模式对话能力的大型语言模型，可以感知和生成多模式内容，并演示了语音 + 文本的多模态交互示例。

May, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

DiagGPT：面向任务导向对话的基于 LLM 的聊天机器人及自动话题管理

本文介绍了一种创新方法 DiagGPT，将大型语言模型（LLMs）扩展到任务导向对话（TOD）场景，并通过实验证明 DiagGPT 在 TOD 方面表现出色，显示出实际应用的潜力。

Aug, 2023

ModelGPT: 发挥 LLM 的能力进行定制模型生成

通过使用 Large Language Models (LLMs)，我们提出了 ModelGPT 框架，以满足用户的特定需求，并以更快的速度生成定制化的 AI 模型，以实现更加便利和用户友好的人工智能模型。

Feb, 2024

利用 GPT-3 生成音乐解释

本文研究了 GPT-3 在通过文本解释来表达音乐决策方面的能力，结果表明 GPT-3 缺乏理解音乐决策的必要智能，解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。

May, 2022

ChatGPT 在生成式人工智能和大型语言模型时代的简明调查

ChatGPT 是 OpenAI 创建的一种大型语言模型 (LLM)，通过大量数据的精心训练，推动了自然语言处理 (NLP) 的发展，并拓展了 LLM 的能力边界。本文主要目标是对 ChatGPT 及其演变的当前研究方向进行简明概述，提供了基于玻璃盒和黑盒观点的综合分析。此概述也揭示了 LLM 和 GAI 领域的现有和缺失研究方向，有益于公众用户和开发人员。

Jul, 2023

采用非成对数据实现大型语言模型的通用语音能力

通过扩展 instruction-tuned Llama-2 模型的同时保持 LLM 的广泛能力范围，本研究提出了一种具备端到端通用语音处理和推理能力的模型。该模型可以使用音频提示代替文本进行对话，并且具备跨模态的能力，例如语音问答、语音翻译和音频摘要等。通过实验，我们证明了这种端到端的方法在建模回应时与或优于级联系统（语音识别器 + LLM），并且可以更好地利用对话中的先前上下文提供更好的结果。

Nov, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024