关键词sign language production
搜索结果 - 13
- ACLT2S-GPT:基于文本的自回归手语生成的动态向量量化
本文提出了一种两阶段手语生成 (SLP) 方法,通过首先将手语序列编码为离散编码,然后基于学习到的码本从文本中自回归生成手语。为解决现有向量量化方法中固定长度编码忽视手语中信息密度不均匀的问题,我们提出了一种新颖的动态向量量化 (DVA-V - 签仪制作的新方法:签缝技术
利用字典示例和面部表情的学习码本创建富有表达力的手语序列,并通过 7 个步骤有效地拼接序列,应用频域过滤和重采样实现连贯自然的手语序列,使用 SignGAN 模型将输出映射到逼真的手语表达者,最终实现了一套完整的文本转手语 SLP 流水线, - 基于数据驱动的手语表达方式
将连续动作生成问题转化为离散序列生成问题的创新解决方案,利用矢量量化方法以及转换器,将口语文本翻译为动作序列,并通过签名拼接方法有效地组合标记,实验证明该方法胜过以往方法,使 BLEU-1 回译得分提高了 72%。
- 使用隐藏动态变换器进行手语产生
经过改进,我们开发了一种新方法来制作高质量的手语视频,不需要使用人类姿势作为中间步骤。与之前的方法相比,我们的模型在两个手语数据集上表现更好。
- 神经信号演员:一种基于扩散模型的从文本到三维手语生成方法
提出了一种基于扩散的 SLP 模型,通过在 SMPL-X 身体骨架上定义的新颖解剖学感知图神经网络,从无约束的话语领域生成动态的 3D 动态符号化身序列,通过定量和定性实验证明本方法在 SLP 方面明显优于先前方法。
- SignDiff: 学习美国手语表达的扩散模型
该研究论文介绍了一个基于深度学习的大规模美国手语(ASL)生成预训练模型,以解决对 ASL 依赖的残障人士之间的沟通障碍,并提出了用于 ASL 生成的基于条件扩散的预训练模型,同时改进了模型的准确性和质量,以及图像指标的优化。
- ECCV知识蒸馏产生的非自回归手语生成
提出了一种基于知识蒸馏的非自回归手语翻译模型,该模型通过长度调节器来预测手语姿势序列的末尾,并采用知识蒸馏来缓解错误解码开始问题。实验证明该方法在 Frechet 手势距离和反向翻译评估方面显著优于现有的 SLP 模型。
- 骨架图自注意力:将骨骼归纳偏差嵌入手语生成中
本文提出了一种将手语序列表示为包含节点和边的骨骼图结构,并运用 Skeletal Graph Self-Attention(SGSA)方法实现手语的流畅和表达,该方法在 RWTH-PHOENIX-Weather-2014T 数据集上展现出比 - 混合 SIGN 信号:通过运动基元的混合来产生手语
通过分解动作、建立表示形式并采用深度学习方法,我们提出了一种用于手语制作的新型混合动作基元架构,以及一种将从口语到手语的翻译过程拆分为独立子任务并进行联合训练的方法,实现了在较小的语料库中从语音到手语的翻译,这是第一次展示了一个完整的从口语 - 透过渐进式 Transformers 及混合密度网络的连续 3D 多通道手语生成
这篇文章提出了一种使用渐进式变换器实现手语自动翻译的方法,解决了现有深度学习方法无法表现手语连续性和完整形态的问题,采用数据增强技术和混合密度网络模型,提高了手语模拟的真实性和表达力,并在 PHOENIX14T 数据集上进行了基准测试和用户 - 现在每个人都签署:将口语语言翻译为逼真的手语视频
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译 - 多通道手语生成对抗训练
本文提出了利用对抗多通道模型进行手语翻译的方法,在模仿人类手语制作过程中加入非手势要素,如面部特征和口型模式,以提高语言翻译的准确度。我们采用基于转换器的生成器和条件判别器的最小化极值过程,根据来源文本制作符合实际的手语,并在 RWTH-P - 渐进式变形器用于端到端手语生成
该论文提出了一种名为 Progressive Transformers 的新型架构,旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出,从而实现自动手语翻译,作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能