Ham2Pose:将手语符号动画化为姿势序列
本文介绍了使用 Hamburg 手语注释系统(HamNoSys)对手语语料库进行自动处理的最新进展。我们设计了自动化工具,将 HamNoSys 注释转换为身体和手部位置的定义初始特征的数字标签。我们提出的数字多标签可以潜在地用于馈送机器学习模型,这将加速视觉手语识别的发展。此外,该工具可以协助专家进行注释过程,并帮助识别语义错误。
Apr, 2022
本文旨在通过音素聚类,收集在线数据、并自动生成及注释手语语料库,以取代在受控实验室环境下获取手语数据的传统方式,以及加速标注手语数据的过程。
May, 2022
本文旨在将自然语言处理技术应用于 Sign Language Production 管道的第一步,介绍了一种基于音素表示而非基于 gloss 表示的 T2H 翻译方法,并使用 HamNoSys 提取标志的手型作为额外的监督来进一步提高性能,最终在两个数据集上均取得了 BLEU-4 得分的最佳表现。
Sep, 2022
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译者的数据集,证明了该方法在定性和定量上均优于基线方法。
Nov, 2020
本文提出了一种基于 AZee 的文本到手语翻译的算法,利用特定领域的平行语料库来解决数据短缺的问题,通过检测源文本中存在的相似性,递归地利用匹配和对齐段的替换来建立一个句子的多个候选翻译,这有助于以一种生成的方式尽可能保留手语结构。最终的翻译以 AZee 表达式的形式呈现,旨在作为输入到 Avatar 合成系统中。我们提供了一个测试集来展示其表现,并观察到了一些局限性。这项工作最终开启了评估翻译和语言方面的可能性,例如准确性和语法流畅性。
May, 2022
将连续动作生成问题转化为离散序列生成问题的创新解决方案,利用矢量量化方法以及转换器,将口语文本翻译为动作序列,并通过签名拼接方法有效地组合标记,实验证明该方法胜过以往方法,使 BLEU-1 回译得分提高了 72%。
Apr, 2024
本文介绍了 OpenHands 库,将 NLP 中四个关键点应用于手语识别中,包括姿势提取,训练基于姿势的孤立手语识别模型,自我监督预训练和跨语言迁移,并在 6 种不同的手语中标准化姿势数据集和预训练数据集。
Oct, 2021
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
Jun, 2024
我们在野外使用视频来处理美国手语拼写翻译的任务。我们利用更精确的手部姿势估计和提出了一种新的架构,它利用基于 Transformer 的编码 - 解码模型,实现了无缝上下文单词翻译。翻译模型通过一种新的损失项,准确预测指拼单词的长度,从而有益于训练和推理。我们还提出了一种新的两阶段推理方法,在解码器的语言模型能力下重新对假设进行排名。通过广泛的实验证明,我们的方法在 ChicagoFSWild 和 ChicagoFSWild + 上优于现有技术模型,相对性能提高了 10% 以上。我们的发现突出了我们方法的有效性和推进手语翻译中的拼写识别的潜力。代码也可在此 https 网址找到。
Nov, 2023
该论文提出了一种新颖的用于手语翻译的深度学习体系结构,称为分层时空图神经网络,在高层和细节层次上建模手语,并使用图卷积和图自我注意机制来描述局部和全局信息特性,并在基准数据集上进行了实验验证。
Nov, 2021