Apr, 2024

超越障碍的桥梁:基于词汇提醒的细粒度提示手势生成与扩散模型

TL;DR提出了一种基于 GlossDiff 框架的 Cued Speech(CS)手势生成方法,该方法通过引入 Gloss 和 Audio-driven Rhythmic Module(ARM)等新技术,实现了对 CS 手势的精细生成和节奏匹配,同时发布了第一个中文 CS 数据集。实验证明该方法在定量和定性上超越了当前的最新技术。