基于大语言模型的合成音频对话生成框架

Sep, 2024

基于大语言模型的合成音频对话生成框架

A Framework for Synthetic Audio Conversations Generation using Large Language Models

Kaung Myat Kyaw, Jonathan Hoyin Chan

TL;DR本研究解决了在多角色设置下生成高质量合成对话音频的问题。提出的ConversaSynth框架有效生成多样且连贯的文本对话，并通过语音合成技术将其转化为音频。实验结果显示，生成的合成数据集具有显著的多样性和真实感，能够显著提升音频标记、分类及多讲者语音识别模型的训练和评估。

Abstract

In this paper, we introduce ConversaSynth, a framework designed to generate synthetic conversation audio using Large language models (LLMs) with multiple persona settings. The framework first creates diverse and coherent text-based dialogues across various topics, which are then conver

发现论文，激发创造

PLACES：用于社交对话综合的激励语言模型

使用专家编写的少量对话作为上下文示例，通过提示生成社交对话数据集，可在多方交流任务中创建更多的合成数据。与人类收集的对话相比，合成的多方交流在所有度量维度上都获得了更多的好评。

Feb, 2023

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的MQTTS系统，其利用了多个代码组内的学习离散代码解决了mel-spectrogram基础的autoregressive模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为AudioGPT的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入/输出接口（ASR，TTS），并通过一系列实验证明了AudioGPT在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

AutoConv: 使用大型语言模型自动生成信息检索对话

利用大型语言模型（LLM）的少样本学习能力和生成能力，我们提出了AutoConv用于合成对话生成，将对话生成问题形式化为语言建模任务，然后使用少量人类对话经过微调训练LLM以捕捉信息获取过程的特征，并使用它生成高质量的合成对话，验证实验表明AutoConv大大改进了目前基线模型的性能，并减少了对人类注释的依赖，此外，我们还提供了多项分析研究以促进未来的研究。

Aug, 2023

探索合成音频数据在基于音频的对话状态跟踪中的可行性

通过研究合成音频数据进行基于音频的对话状态追踪，该论文开发了级联和端到端模型，用合成音频数据进行训练，并在实际人类语音数据上进行了测试。实验结果显示，仅在合成数据集上训练的模型可以将其性能推广到人类语音数据。消除对人类语音数据采集的依赖，这些研究成果为基于音频的对话状态追踪的重要实际进展铺平了道路。

Dec, 2023

借助大语言模型生成忠实的以人为基础的对话数据集

通过建立Generator-Critic架构，使用LLM生成会话，借助Synthetic-Persona-Chat评估了高质量对话数据集对NLP模型的影响。

Dec, 2023

Pheme：高效且会话式的语音生成

在这项研究中，我们介绍了Pheme模型系列，它提供了紧凑而高性能的模型，能够并行生成自然对话式语音，并且可以高效地在较小规模的对话数据上进行训练，降低数据需求10倍以上，但仍能与自回归TTS模型的质量相匹配。我们还展示了通过简单的教师-学生蒸馏，在预训练的Pheme检查点的基础上，通过仅依靠更大的教师模型生成的合成语音，在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。

Jan, 2024

语音语言模型的指导数据生成和无监督适应

我们提出了三种方法来生成合成样本，以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题，合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件和文本到语音系统生成语音组件的过程。所提出的方法提供了一种实用且有效的扩展这些模型训练数据集的方式。实验结果表明，在理解文本和语音方面取得了进展。我们还强调了使用未标注的语音数据来生成质量可与有可用转录的样本媲美的合成样本的潜力，从而使这些模型能够更多地应用于其他语言。

Jun, 2024

利用文本到语音和大型语言模型生成对话语音识别数据

该研究解决了在对话语音识别中的数据获得困难，尤其是多说话者的合成数据生成问题。通过结合大型语言模型与对话多说话者文本到语音模型，本论文提出了一种高效的合成数据生成管道，显著提升了模型在电话和远程对话场景中的表现。此方法有效减少了对外部非对话性语音数据的依赖，提升了合成的语音识别能力。

Aug, 2024

风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

本研究解决了在语音对话生成中实时性与自然性不足的问题，提出了一种创新框架Style-Talker，通过微调音频语言模型与风格化文本到语音模型，利用用户输入音频生成响应的语音风格与文本。实验结果显示，Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型，同时速度提高超过50%。

Aug, 2024