双立体：手语三维动作重建与生成

May, 2024

双立体：手语三维动作重建与生成

SignAvatar: Sign Language 3D Motion Reconstruction and Generation

Lu Dong, Lipisha Chaudhary, Fei Xu, Xiao Wang, Mason Lary...

TL;DR通过使用基于变分自编码器的 Transformer 结构和课程学习策略，我们提出了 SignAvatar 框架，在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据，通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。

Abstract

Achieving expressive 3d motion reconstruction and automatic generation for isolated sign words can be challenging, due to the lack of real-world 3D sign-word data, the complex nuances of signing motions, and the

3d motion reconstruction automatic generation sign language transformer-based conditional variational autoencoder asl3dword dataset

发现论文，激发创造

SignAvatars：大规模 3D 手语整体运动数据集与基准

本文介绍了 SignAvatars 这个大规模的多提示 3D 手语运动数据集，旨在弥合听障个体之间的交流障碍；数据集涵盖包括隔离的手势和连贯的手势在内的 70,000 个视频，共计 8.34 百万帧，提供了自动化注释流水线以及 3D 手语的形态学注释，促进了 3D 手语识别和 3D 手语生成等任务的实施。

Oct, 2023

利用语言先验从视频中重建签名化身

通过引入具有普遍适用性的新颖语言学先验，SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作，从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用，并在 SL 视频上优于现有 3D 身体姿势和形状估计方法。

Apr, 2023

口语到手语翻译的简单基准模型与 3D 人偶

本文旨在开发一种功能性系统，实现将口语翻译成手语的功能，称之为 Spoken2Sign 翻译。我们提出了一个简单的基线，由三个步骤组成：使用现有的 Sign2Spoken 基准创建一个手语视频字典；为字典中的每个手语视频估计一个 3D 手语；借助产生的手语 - 3D 手语字典，训练一个由 Text2Gloss 翻译器、手语连接器和渲染模块组成的 Spoken2Sign 模型。我们是首次将 Spoken2Sign 任务呈现为 3D 手语输出格式，除了能进行 Spoken2Sign 翻译外，我们还证明了我们方法的两个附带产品 ——3D 关键点增强和多视图理解对基于关键点的手语理解的辅助作用。

Jan, 2024

神经信号演员：一种基于扩散模型的从文本到三维手语生成方法

提出了一种基于扩散的 SLP 模型，通过在 SMPL-X 身体骨架上定义的新颖解剖学感知图神经网络，从无约束的话语领域生成动态的 3D 动态符号化身序列，通过定量和定性实验证明本方法在 SLP 方面明显优于先前方法。

Dec, 2023

现在每个人都签署：将口语语言翻译为逼真的手语视频

引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构，提出了一个新颖的基于关键点的损失函数，实现了从口语翻译成骨骼姿势，再生成连续的手势语视频。使用 8 个手语翻译者的数据集，证明了该方法在定性和定量上均优于基线方法。

Nov, 2020

运动化身：生成具备任意动作的人和动物化身

该研究论文介绍了一种基于代理的方法，名为 “Motion Avatar”，通过文本查询实现了高质量可定制的人类和动物角色的自动生成，同时引入了一个协调动作和角色生成的规划器，并提供了一个动物运动数据集，为社区提供了有价值的资源。

May, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

通过姿势编码变分自动编码器实现多元化的手语表达

该研究解决了多样性感知手语生成问题，扩展了变分推断范式以包括姿势信息和属性条件，通过 UNet 架构的生成器框架和变分推断的视觉特征生成具有不同属性的手语图像，实验证明该模型在多样性、像素图像质量和姿势估计方面的表现优于现有基准模型，并忠实地再现手语非口型特征。

May, 2024

动画艺术化头像：由单张图像生成可动画的三维艺术化头像

通过一张单一的图像生成具有可控面部表情、头部姿态和肩膀运动的可动画 3D 感知艺术化人物形象，并进行实时动态演示。

Mar, 2024

AvatarStudio：高保真和可动画三维头像从文本创建

通过 AvatarStudio 生成高质量的、可动画的 3D 人物头像，首先使用低分辨率的基于 NeRF 的表示进行初步生成，然后结合 SMPL 引导关节活动增加明确的网格表示并支持头像动画和高分辨率渲染，在结果头像中引入基于 DensePose 的 2D 扩散模型以确保视角一致性和姿态可控性，利用 AvatarStudio 可以从文本中生成高质量的头像并具备动态效果，优于之前的方法，并且适用于多模态头像动画和风格引导头像创作等多个应用。

Nov, 2023