使用隐藏动态变换器进行手语产生

Dec, 2023

使用隐藏动态变换器进行手语产生

Sign Language Production with Latent Motion Transformer

PDF

Pan Xie, Taiyi Peng, Yao Du, Qipeng Zhang

TL;DR经过改进，我们开发了一种新方法来制作高质量的手语视频，不需要使用人类姿势作为中间步骤。与之前的方法相比，我们的模型在两个手语数据集上表现更好。

Abstract

sign language production (slp) is the tough task of turning sign language into sign videos. The main goal of →

sign language production slp sign videos hidden features latent codes

发现论文，激发创造

基于数据驱动的手语表达方式

将连续动作生成问题转化为离散序列生成问题的创新解决方案，利用矢量量化方法以及转换器，将口语文本翻译为动作序列，并通过签名拼接方法有效地组合标记，实验证明该方法胜过以往方法，使 BLEU-1 回译得分提高了 72%。

Apr, 2024

现在每个人都签署：将口语语言翻译为逼真的手语视频

引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构，提出了一个新颖的基于关键点的损失函数，实现了从口语翻译成骨骼姿势，再生成连续的手势语视频。使用 8 个手语翻译者的数据集，证明了该方法在定性和定量上均优于基线方法。

Nov, 2020

渐进式变形器用于端到端手语生成

该论文提出了一种名为 Progressive Transformers 的新型架构，旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出，从而实现自动手语翻译，作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能，在 RWTH-PHOENIX-Weather-2014T 数据集上取得了令人瞩目的基础性成果，为未来的研究提供了基线。

Apr, 2020

透过渐进式 Transformers 及混合密度网络的连续 3D 多通道手语生成

这篇文章提出了一种使用渐进式变换器实现手语自动翻译的方法，解决了现有深度学习方法无法表现手语连续性和完整形态的问题，采用数据增强技术和混合密度网络模型，提高了手语模拟的真实性和表达力，并在 PHOENIX14T 数据集上进行了基准测试和用户评估。

Mar, 2021

转变表征：探究神经手语语言表征

本文旨在将自然语言处理技术应用于 Sign Language Production 管道的第一步，介绍了一种基于音素表示而非基于 gloss 表示的 T2H 翻译方法，并使用 HamNoSys 提取标志的手型作为额外的监督来进一步提高性能，最终在两个数据集上均取得了 BLEU-4 得分的最佳表现。

Sep, 2022

混合 SIGN 信号：通过运动基元的混合来产生手语

通过分解动作、建立表示形式并采用深度学习方法，我们提出了一种用于手语制作的新型混合动作基元架构，以及一种将从口语到手语的翻译过程拆分为独立子任务并进行联合训练的方法，实现了在较小的语料库中从语音到手语的翻译，这是第一次展示了一个完整的从口语到手语的翻译流水线相较于从原始手语表现形式到手语的翻译较好的性能。

Jul, 2021

自回归手语制作：基于离散表示的无词汇化方法

该论文介绍了一种利用向量量化从手语姿势序列中得出离散表示的手语矢量量化网络的新方法，该方法支持高级解码方法，并整合了潜在级别的对齐以增强语言的一致性，并通过综合评估证明了该方法优于之前的手语生产方法的卓越性能，并突出了反向转译和 Fréchet 手势距离作为评估指标的可靠性

Sep, 2023

签仪制作的新方法：签缝技术

利用字典示例和面部表情的学习码本创建富有表达力的手语序列，并通过 7 个步骤有效地拼接序列，应用频域过滤和重采样实现连贯自然的手语序列，使用 SignGAN 模型将输出映射到逼真的手语表达者，最终实现了一套完整的文本转手语 SLP 流水线，评估结果表明该方法在各个数据集上具有最先进的性能，用户评估显示该方法优于基准模型且能够产生逼真的手语序列。

May, 2024

多通道手语生成对抗训练

本文提出了利用对抗多通道模型进行手语翻译的方法，在模仿人类手语制作过程中加入非手势要素，如面部特征和口型模式，以提高语言翻译的准确度。我们采用基于转换器的生成器和条件判别器的最小化极值过程，根据来源文本制作符合实际的手语，并在 RWTH-PHOENIX-Weather-2014T (PHOENIX14T) 数据集上进行了评估和表现改进。

Aug, 2020

知识蒸馏产生的非自回归手语生成

提出了一种基于知识蒸馏的非自回归手语翻译模型，该模型通过长度调节器来预测手语姿势序列的末尾，并采用知识蒸馏来缓解错误解码开始问题。实验证明该方法在 Frechet 手势距离和反向翻译评估方面显著优于现有的 SLP 模型。

Aug, 2022