Diff-TTSG: 去噪概率综合语音和手势合成

Jun, 2023

Diff-TTSG: 去噪概率综合语音和手势合成

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

Shivam Mehta, Siyang Wang, Simon Alexanderson, Jonas Beskow, Éva Székely...

TL;DR本文介绍了第一个联合学习合成语音和手势的扩散式概率模型 Diff-TTSG，并提供了多种单模态和多模态主观测试来评估系统，结果表明本方法能够在小数据集上进行训练，同时提高了合成质量。

Abstract

With read-aloud speech synthesis achieving high naturalness scores, there is a growing research interest in synthesising spontaneous speech. However, human spontaneous face-to-face conversation has both spoken and non-verbal aspects (here, →

speech synthesis co-speech gestures probabilistic model dataset multi-modal tests

发现论文，激发创造

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

使用离散手势令牌学习来进行共同语音手势合成

针对语音对应手势模型中存在的多种可能性及冲突问题，本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题，并使用自回归变换器模型学习手势生成的先验分布，经用户考核后证明本方法生成的手势具有更加逼真和多样性。

Mar, 2023

ConvoFusion: 多模态会话扩散用于同步语音手势合成

ConvoFusion 是一种基于扩散的多模态手势合成方法，通过两个引导目标实现了不同条件模态（例如音频与文本）的调节和重点单词的强调，在生成单语手势和对话式手势方面都具有多用途性。

Mar, 2024

EMoG：使用扩散模型合成情感共同语言三维手势

本文提出了一种通过加入情感线索指导生成过程、将难以生成的姿态生成分解为关节相关性建模和时间动力学建模两个子问题，然后分别使用提出的 JCFormer 模型来明确地解决子问题的新型框架 EMoG，该方法在手势合成方面表现优异，超过了以前的现有方法。

Jun, 2023

基于流匹配的语音和手势综合

利用自然语言处理技术，本文提出了一种新颖的统一架构，用于联合合成语音音质和基于骨骼的 3D 手势运动，通过优化传输条件流匹配（OT-CFM）进行训练。与现有技术相比，所提出的架构更简单，内存占用更小，能够捕捉语音和手势的联合分布，并在一个单一过程中生成两种模态。同时，新的训练机制在比以前更少的步骤（网络评估）中实现更好的合成质量。与现有基准相比，单模态和多模态主观测试证明了改进的语音自然度、手势人类类似度和跨模态的适宜性。

Oct, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

DiffGAN-TTS: 用去噪扩散 GAN 实现高保真和高效的文本转语音

本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS)，该模型通过多说话人 TTS 实验表明，仅需 4 个去噪步骤即可生成高保真度语音样本，并提出了一个两阶段训练方案，可在仅 1 个去噪步骤下实现高质量的语音合成性能。

Jan, 2022

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023