Diff-TTSG: 去噪概率综合语音和手势合成
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。
Sep, 2023
本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平衡,实现了高保真的音频驱动共话手势生成。
Mar, 2023
针对语音对应手势模型中存在的多种可能性及冲突问题,本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题,并使用自回归变换器模型学习手势生成的先验分布,经用户考核后证明本方法生成的手势具有更加逼真和多样性。
Mar, 2023
ConvoFusion 是一种基于扩散的多模态手势合成方法,通过两个引导目标实现了不同条件模态(例如音频与文本)的调节和重点单词的强调,在生成单语手势和对话式手势方面都具有多用途性。
Mar, 2024
本文提出了一种通过加入情感线索指导生成过程、将难以生成的姿态生成分解为关节相关性建模和时间动力学建模两个子问题,然后分别使用提出的 JCFormer 模型来明确地解决子问题的新型框架 EMoG,该方法在手势合成方面表现优异,超过了以前的现有方法。
Jun, 2023
利用自然语言处理技术,本文提出了一种新颖的统一架构,用于联合合成语音音质和基于骨骼的 3D 手势运动,通过优化传输条件流匹配(OT-CFM)进行训练。与现有技术相比,所提出的架构更简单,内存占用更小,能够捕捉语音和手势的联合分布,并在一个单一过程中生成两种模态。同时,新的训练机制在比以前更少的步骤(网络评估)中实现更好的合成质量。与现有基准相比,单模态和多模态主观测试证明了改进的语音自然度、手势人类类似度和跨模态的适宜性。
Oct, 2023
该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。
Aug, 2023
本文介绍了一种新的基于 Denoising Diffusion Generative Adversarial Networks 的文本到语音模型 (DiffGAN-TTS),该模型通过多说话人 TTS 实验表明,仅需 4 个去噪步骤即可生成高保真度语音样本,并提出了一个两阶段训练方案,可在仅 1 个去噪步骤下实现高质量的语音合成性能。
Jan, 2022
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023