Apr, 2023

AudioGPT:理解与生成语音、音乐、声音和说话人头像

TL;DR本文提出了一种名为 AudioGPT 的多模 AI 系统,该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务,以及支持口语对话的输入 / 输出接口(ASR,TTS),并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。