通过姿势编码变分自动编码器实现多元化的手语表达

May, 2024

通过姿势编码变分自动编码器实现多元化的手语表达

Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder

Mohamed Ilyes Lakhal, Richard Bowden

TL;DR该研究解决了多样性感知手语生成问题，扩展了变分推断范式以包括姿势信息和属性条件，通过 UNet 架构的生成器框架和变分推断的视觉特征生成具有不同属性的手语图像，实验证明该模型在多样性、像素图像质量和姿势估计方面的表现优于现有基准模型，并忠实地再现手语非口型特征。

Abstract

This paper addresses the problem of diversity-aware sign language production, where we want to give an image (or sequence) of a signer and produce another image with the same pose but different attributes (\textit{e.g.} gender, skin color). To this end, we extend the →

diversity-aware sign language production variational inference unet architecture visual features smile ii dataset

发现论文，激发创造

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

基于条件变分自动编码器的手语翻译与跨模态对齐

为了解决手语翻译中视觉和文本之间的跨模态对齐问题，本研究提出了一种基于条件变分自编码器的新型框架（CV-SLT），通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明，该框架在公共数据集上取得了新的最先进结果，并显著减轻了跨模态表示差异。

Dec, 2023

通过自监督分离身份和姿势实现逼真的人脸复原

本文提出了一种新型的自我监督混合模型（DAE-GAN），它结合了两个形变自编码器及条件生成的最新进展，用于学习如何在大量未标记视频的情况下自然地再现人脸，并且在 VoxCeleb1 和 RaFD 数据集上得到了优秀的实验结果，表明了重新表演图像的优异品质和在不同身份之间转移面部动作的灵活性。

Mar, 2020

图像合成与姿态估计的手部潜变量分离

本文提出了使用离散表示和离散变分自编码器（dVAE）来实现手部图像合成和姿态估计，并可处理交叉模态编码器和半监督学习场景。实验结果表明，dVAE 可以合成高度逼真的手部图像，同时从 RGB 图像中估计三维手部姿态并达到公开数据集上当前最优成果的识别准确性。

Dec, 2018

通过自标记条件变分自编码器提高多样文本生成

本文介绍了一种基于自标记变分自编码器（SLCVAE）的方法，以解决 CVAE 模型中 KL-vanishing 问题，提高文本生成多样性。同时，提供了一个大型本地一对多数据集，支持此方法的研究。

Mar, 2019

双立体：手语三维动作重建与生成

通过使用基于变分自编码器的 Transformer 结构和课程学习策略，我们提出了 SignAvatar 框架，在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据，通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。

May, 2024

基于 Transformer VAE 的带动作条件的 3D 人类动作合成

本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成，以及改进行为识别和降噪等两种应用。

Apr, 2021

VOLTA：可变的 VAE 对抗学习系统的多样化和可控问题 - 答案生成

本文提出了一种名为 VOLTA 的模型，它采用变分自编码器框架和共享后骨干网络作为其编码器和解码器，通过添加 InfoGAN 风格的潜在代码来实现生成多样性和不受输入控制的可控性，实验结果表明，相对于同类模型，VOLTA 能够显著提高生成多样性和可控性。

Jul, 2023

面向驾驶信号的全身化身

本文提出了一种基于学习的方法，可以使用不完整的驾驶信号，如人体姿势和面部关键点，来建立全身化身，从而实现高质量的人类几何和视角相关的外观表现，同时通过分离驾驶信号和生成因素来提高可驾驶性和泛化性，还提出了一种可学习的局部压缩驾驶信号方法，以便更好地泛化，从而产生适合于特定应用的缺失因素插值策略，最后在利用来自环境中放置的最小传感器和固定在 VR 头显上的驾驶信号来实现虚拟遥感的全身动画问题上证明了本方法的有效性。

May, 2021

多模态 VAEs 中的统一多样性：改进的表示学习

用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力，如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束，提出了一种新的专家混合先验方法，软指导每个模态的潜编码向共享的聚合后验靠近，从而得到一个更好的潜编码表示，并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明，与现有方法相比，学到的潜编码表示和缺失数据模态的插补有所改进。

Mar, 2024