超越障碍的桥梁：基于词汇提醒的细粒度提示手势生成与扩散模型

Apr, 2024

超越障碍的桥梁：基于词汇提醒的细粒度提示手势生成与扩散模型

Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model

Wentao Lei, Li Liu, Jun Wang

TL;DR提出了一种基于 GlossDiff 框架的 Cued Speech（CS）手势生成方法，该方法通过引入 Gloss 和 Audio-driven Rhythmic Module（ARM）等新技术，实现了对 CS 手势的精细生成和节奏匹配，同时发布了第一个中文 CS 数据集。实验证明该方法在定量和定性上超越了当前的最新技术。

Abstract

cued speech (CS) is an advanced visual phonetic encoding system that integrates lip reading with hand codings, enabling people with hearing impairments to communicate efficiently. cs video generation aims to prod

cued speech cs video generation glossdiff audio-driven rhythmic module chinese cs dataset

发现论文，激发创造

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

一种基于多 Cuer 语料库的适用于提示性语言重同步的新型可解释且具有泛化能力的模型

本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech（CS），并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间（HPT）的方法。此外，对五位说话人的视频进行了注释，并发现手先现象存在于它们的产生中，同时也证明了方法的有效性。

Jun, 2023

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

C2G2：具有潜在扩散模型的可控共时手势生成

我们提出了一种名为 C2G2 的可控共语手势生成框架，该框架通过捕捉时间潜变信息和应用实用的控制方法来解决现有方法中存在的训练不稳定、时间不一致、高保真度和全面性不足以及对生成手势的说话者身份和时间编辑的缺乏有效控制等问题，通过两阶段的时间依赖增强策略和说话者特定解码器生成与说话者相关的真实长度骨骼以及柔性手势生成 / 编辑的重新上色策略，我们在基准手势数据库上进行了大量实验，验证了我们提出的 C2G2 相对于几种最先进的基准效果。

Aug, 2023

生动演讲者：走向语义感知的共同语言手势生成

通过 LivelySpeaker 框架，我们实现了语义感知的共同语言手势生成，并提供了几个控制手段。我们的方法将任务分解为两个阶段：基于脚本的手势生成和基于音频引导的节奏细化。具体地说，基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导，生成与脚本高度语义对齐的手势。然后，我们设计了一个简单而有效的基于扩散的手势生成骨干，仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合，尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用，例如改变手势风格，通过文本提示编辑共同语言手势，以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外，我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。

Sep, 2023

语音驱动模板：基于学习的模板实现共语手势合成

本文提出了一种基于手势模板和语音音频的共同生成手势序列方法，使用嘴唇同步误差作为代理度量来调整和评估模型的同步能力，通过对齐生成的手势序列和语音音频的同步性评估表明该方法在保真度和同步性方面能够获得更好的客观和主观评价。

Aug, 2021

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

ConvoFusion: 多模态会话扩散用于同步语音手势合成

ConvoFusion 是一种基于扩散的多模态手势合成方法，通过两个引导目标实现了不同条件模态（例如音频与文本）的调节和重点单词的强调，在生成单语手势和对话式手势方面都具有多用途性。

Mar, 2024

使用注意机制和 CTC 解码研究法式手形和唇形的动态

本研究利用神经网络的关注机制探究单一讲话者手部和口部在特定语境下的动态关系，以及基于该关系为法语 Cued Speech 实现单词识别基准数据集的建立。

Jun, 2023

Diff-TTSG: 去噪概率综合语音和手势合成

本文介绍了第一个联合学习合成语音和手势的扩散式概率模型 Diff-TTSG，并提供了多种单模态和多模态主观测试来评估系统，结果表明本方法能够在小数据集上进行训练，同时提高了合成质量。

Jun, 2023