风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

Aug, 2024

风格对话生成器：微调音频语言模型与基于风格的文本到语音模型以实现快速语音对话生成

Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation

Yinghao Aaron Li, Xilin Jiang, Jordan Darefsky, Ge Zhu, Nima Mesgarani

TL;DR本研究解决了在语音对话生成中实时性与自然性不足的问题，提出了一种创新框架Style-Talker，通过微调音频语言模型与风格化文本到语音模型，利用用户输入音频生成响应的语音风格与文本。实验结果显示，Style-Talker在对话的自然性与连贯性上显著优于传统的级联模型，同时速度提高超过50%。

Abstract

The rapid advancement of large language models (LLMs) has significantly propelled the development of text-based chatbots, demonstrating their capability to engage in coherent and contextually relevant dialogues. However, extending these advancements to enable end-to-end Speech-to-Speech

发现论文，激发创造

生成对话中的样式控制

本文将三个先前提出的可控生成结构应用于开放领域对话生成，控制生成的样式以匹配大约200种可能的样式之一，并比较它们各自的性能和权衡，展示它们如何提供对现有对话数据集的深入洞察，以及如何生成各种样式的会话回复

Sep, 2020

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的TTS，通过基于VAE/GMVAE-VITS的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的VITS。

Jun, 2022

FCTalker：细粒度和粗粒度上下文建模用于生动的对话语音合成

FCTalker是一种基于fine and coarse-grained encoder的语音合成模型，使用了基于BERT的对话编码器来建立话语历史与语音合成之间的单词级别依赖关系，以提高合成语音的表现力和适应性。

Oct, 2022

StyleTTS 2：通过样式扩散和大型语音语言模型的对抗训练实现人类水平的文本朗读

本文提出了StyleTTS2，它是一个使用了样式扩散和对抗训练技术以及大型语音语言模型的文本转语音模型，它能够有效地进行潜在扩散，实现单个和多个说话人的人类级TTS合成。

Jun, 2023

基于大型语言模型的对话响应与语音合成的联合建模研究

本文研究构建一种“思考如何回应”和“思考如何讲话”的人工智能口语对话系统，相比当前独立的聊天机器人和文本到语音（TTS）模块的级联流水线，更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型（LLMs），展示其在语音理解能力上的潜力，并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明，基于LLM的方法是构建统一口语对话系统的一种有前景的方向。

Sep, 2023

推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

在口语对话中，即使两个当前对话相同，它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种Spoken-LLM框架，旨在教导LLMs理解和适当回应不同的语言风格，并使用StyleTalk数据集进行训练，通过两个阶段的训练使Spoken-LLM更好地学习语言风格，实验证明Spoken-LLM表现优于纯文本基准和先前的语音LLMs方法。

Feb, 2024

StyleChat: 基于LMM的记忆式学习在风格化对话生成中的应用

通过构建38种风格的语料库，研究团队提出了一种基于记忆和多任务学习策略的对话生成框架StyleChat，它能够有效地解决基于大规模语言模型的风格化对话生成中的数据偏差问题，并在测试中取得了优秀的表现。

Mar, 2024

生成性表现对话语音合成

本文解决了现有对话语音合成方法在模拟真实自然对话风格方面的不足，提出了一种新颖的生成性表现对话语音合成系统——GPT-Talker。通过将多轮对话历史的多模态信息转化为离散的token序列，并利用GPT技术预测响应的token序列，使我们的模型在自然性和表现力上显著优于其他先进的对话语音合成系统。

Jul, 2024

StyleSpeech: 参数高效的预训练可控文本到语音微调

本文提出了StyleSpeech，一个新颖的文本到语音（TTS）系统，旨在提高合成语音的自然性和准确性。通过引入独特的风格装饰器结构，该系统使深度学习模型能够同时学习风格和音素特征，进而实现更高的适应性和效率。该研究的显著发现表明，StyleSpeech在生成自然、准确且高质量的语音方面明显优于现有的最新技术，为动态和专业的TTS系统应用开辟了新路径。

Aug, 2024