增强葡萄牙手语动画的动态定时与口型
通过分解动作、建立表示形式并采用深度学习方法,我们提出了一种用于手语制作的新型混合动作基元架构,以及一种将从口语到手语的翻译过程拆分为独立子任务并进行联合训练的方法,实现了在较小的语料库中从语音到手语的翻译,这是第一次展示了一个完整的从口语到手语的翻译流水线相较于从原始手语表现形式到手语的翻译较好的性能。
Jul, 2021
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
Jun, 2024
该研究介绍了解决手语识别数据稀缺的方法,利用自动化技术对英国手语视频进行数据自动提取并训练出状态良好的手语识别模型,该方法对于其他手语语种和基准测试也具有很好的预训练效果,并提供了新的数据集可用于手语识别和位置检测。
Jul, 2020
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译者的数据集,证明了该方法在定性和定量上均优于基线方法。
Nov, 2020
本文介绍了 SignAvatars 这个大规模的多提示 3D 手语运动数据集,旨在弥合听障个体之间的交流障碍;数据集涵盖包括隔离的手势和连贯的手势在内的 70,000 个视频,共计 8.34 百万帧,提供了自动化注释流水线以及 3D 手语的形态学注释,促进了 3D 手语识别和 3D 手语生成等任务的实施。
Oct, 2023
通过使用基于变分自编码器的 Transformer 结构和课程学习策略,我们提出了 SignAvatar 框架,在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据,通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。
May, 2024
通过引入具有普遍适用性的新颖语言学先验,SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作,从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用,并在 SL 视频上优于现有 3D 身体姿势和形状估计方法。
Apr, 2023
本文旨在开发一种功能性系统,实现将口语翻译成手语的功能,称之为 Spoken2Sign 翻译。我们提出了一个简单的基线,由三个步骤组成:使用现有的 Sign2Spoken 基准创建一个手语视频字典;为字典中的每个手语视频估计一个 3D 手语;借助产生的手语 - 3D 手语字典,训练一个由 Text2Gloss 翻译器、手语连接器和渲染模块组成的 Spoken2Sign 模型。我们是首次将 Spoken2Sign 任务呈现为 3D 手语输出格式,除了能进行 Spoken2Sign 翻译外,我们还证明了我们方法的两个附带产品 ——3D 关键点增强和多视图理解对基于关键点的手语理解的辅助作用。
Jan, 2024
电脑识别视频中孤立符号存在着一些困难,其中包括手语者之间的口头和非口头的同步变化以及特定符号的实现中存在的社会语言学变化。本文概述了这些挑战,并基于大规模的语言学注释视频数据的发现,对美国手语的符号结构中的某些规律进行了讨论。
Nov, 2023
我们分析了现有的性能评估技术,并采用在人体姿势重建任务中表现良好的方法,结合运动旋转嵌入表达,提出了一个两阶段手语表演评估流程。实验证明,与端到端评估相比,我们的方法提供了良好的分数反馈机制,并与专业评估具有较高的一致性。
Apr, 2024