基于数据驱动的手语表达方式
该论文介绍了一种利用向量量化从手语姿势序列中得出离散表示的手语矢量量化网络的新方法,该方法支持高级解码方法,并整合了潜在级别的对齐以增强语言的一致性,并通过综合评估证明了该方法优于之前的手语生产方法的卓越性能,并突出了反向转译和 Fréchet 手势距离作为评估指标的可靠性
Sep, 2023
本文旨在将自然语言处理技术应用于 Sign Language Production 管道的第一步,介绍了一种基于音素表示而非基于 gloss 表示的 T2H 翻译方法,并使用 HamNoSys 提取标志的手型作为额外的监督来进一步提高性能,最终在两个数据集上均取得了 BLEU-4 得分的最佳表现。
Sep, 2022
该论文提出了一种名为 Progressive Transformers 的新型架构,旨在将离散文本语言句子翻译成表示手语的连续 3D 骨架姿势输出,从而实现自动手语翻译,作者在文中还提出了几种数据增强处理方式以克服漂移问题并提高手语翻译性能,在 RWTH-PHOENIX-Weather-2014T 数据集上取得了令人瞩目的基础性成果,为未来的研究提供了基线。
Apr, 2020
这篇文章提出了一种使用渐进式变换器实现手语自动翻译的方法,解决了现有深度学习方法无法表现手语连续性和完整形态的问题,采用数据增强技术和混合密度网络模型,提高了手语模拟的真实性和表达力,并在 PHOENIX14T 数据集上进行了基准测试和用户评估。
Mar, 2021
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译者的数据集,证明了该方法在定性和定量上均优于基线方法。
Nov, 2020
本文提出了一种两阶段手语生成 (SLP) 方法,通过首先将手语序列编码为离散编码,然后基于学习到的码本从文本中自回归生成手语。为解决现有向量量化方法中固定长度编码忽视手语中信息密度不均匀的问题,我们提出了一种新颖的动态向量量化 (DVA-VAE) 模型,该模型可以根据手语中的信息密度动态调整编码长度以实现准确而紧凑的编码。随后,一种类似于 GPT 的模型通过学习从口语文本生成编码序列及其对应的持续时间。对 PHOENIX14T 数据集进行了大量实验证明了我们提出的方法的有效性。为了推动手语研究,我们提出了一个新的德语手语大规模数据集 PHOENIX-News,该数据集包含 486 小时的手语视频,音频及转录文本。对 PHOENIX-News 的实验分析表明,增加训练数据的规模可以进一步提高我们模型的性能。项目主页详见此链接。
Jun, 2024
利用字典示例和面部表情的学习码本创建富有表达力的手语序列,并通过 7 个步骤有效地拼接序列,应用频域过滤和重采样实现连贯自然的手语序列,使用 SignGAN 模型将输出映射到逼真的手语表达者,最终实现了一套完整的文本转手语 SLP 流水线,评估结果表明该方法在各个数据集上具有最先进的性能,用户评估显示该方法优于基准模型且能够产生逼真的手语序列。
May, 2024
通过分解动作、建立表示形式并采用深度学习方法,我们提出了一种用于手语制作的新型混合动作基元架构,以及一种将从口语到手语的翻译过程拆分为独立子任务并进行联合训练的方法,实现了在较小的语料库中从语音到手语的翻译,这是第一次展示了一个完整的从口语到手语的翻译流水线相较于从原始手语表现形式到手语的翻译较好的性能。
Jul, 2021
提出了一种基于知识蒸馏的非自回归手语翻译模型,该模型通过长度调节器来预测手语姿势序列的末尾,并采用知识蒸馏来缓解错误解码开始问题。实验证明该方法在 Frechet 手势距离和反向翻译评估方面显著优于现有的 SLP 模型。
Aug, 2022