零封装的基于流匹配的文本转语音使你尽情大笑

Feb, 2024

零封装的基于流匹配的文本转语音使你尽情大笑

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang...

TL;DR提出了基于短音频提示的 ELaTE 零样本文本到语音模型，能够以精确的笑声控制时间和表达来生成任何说话者的自然笑声，比传统模型具有更高质量和可控性。

Abstract

laughter is one of the most expressive and natural aspects of human speech, conveying emotions, social cues, and humor. However, most text-to-speech (TTS) systems lack the ability to produce realistic and appropr

laughter text-to-speech elate zero-shot laughter generation

发现论文，激发创造

笑一笑，哭一哭：控制基于流匹配的零样本文本到语音中的递变情绪状态

EmoCtrl-TTS 是一种情感可控的零样本语音合成系统，利用情绪激活值、情绪价值值和笑声嵌入来生成具有非语言声音的高度情感化的语音。

Jul, 2024

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

May, 2023

笑话语：用笑声生成表情豐富的三维说话头部

本文介绍了一种生成 3D 说话头部并能够表达真实笑声的新方法，通过 2D 视频和 3D 参数数据集的配对，展示了一种基于两阶段训练方案的强大基线模型，该模型在说话头部生成和表达笑声信号方面相比现有方法表现出优越性，并探索了真实化角色控制的潜在应用。

Nov, 2023

低资源场景下用于栋笃笑表演的语音合成技术

本研究构建了一个新的数据集，开发了 ComedicSpeech—— 适用于低资源场景下的单口喜剧合成的 TTS 系统，其灵活提取了韵律、个人节奏和填充词等个性特征，并展示了仅使用每位喜剧演员十分钟训练数据的情况下，比基线模型获得更好的表现。

May, 2023

基于流匹配的零样本 TTS 的噪声稳健性研究

对于从噪声音频提示生成的语音合成，我们研究了多种策略来提高其质量，包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等，实验证明相较于应用语音增强到音频提示的方法，我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。

Jun, 2024

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Sep, 2023

笑声重要：基于扩散模型的笑脸生成介绍

本文提出了一种新颖的模型，可以在给定一个静止肖像和一个包含笑声的音频剪辑的情况下生成逼真的笑声序列，该模型使用扩散模型的最新进展，解决了传统面部动画方法的失败案例，针对笑声引入了一种评估指标，获得了所有指标的最先进表现。

May, 2023

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发 TTS 系统，大大拓展了 TTS 的覆盖范围并能取得高度理解度。

Jan, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

从书面对话向人类般的 AI 代理之间的口语对话生成迈进

该论文描述了 CHATS - CHatty Agents Text-to-Speech，这是一种基于书面对话生成口语对话的离散标记系统，通过仅使用说话方的转录，同时为说话方和倾听方生成语音，消除了对倾听方的转录需求，同时可以促进自然交谈的轮换和流畅对话的生成。

Oct, 2023