通过姿势编码变分自动编码器实现多元化的手语表达
通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分,结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器,从而更加真实和多样的生成语音到动作的映射。
Aug, 2021
为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结果,并显著减轻了跨模态表示差异。
Dec, 2023
本文提出了一种新型的自我监督混合模型(DAE-GAN),它结合了两个形变自编码器及条件生成的最新进展,用于学习如何在大量未标记视频的情况下自然地再现人脸,并且在 VoxCeleb1 和 RaFD 数据集上得到了优秀的实验结果,表明了重新表演图像的优异品质和在不同身份之间转移面部动作的灵活性。
Mar, 2020
本文提出了使用离散表示和离散变分自编码器(dVAE)来实现手部图像合成和姿态估计,并可处理交叉模态编码器和半监督学习场景。实验结果表明,dVAE 可以合成高度逼真的手部图像,同时从 RGB 图像中估计三维手部姿态并达到公开数据集上当前最优成果的识别准确性。
Dec, 2018
本文介绍了一种基于自标记变分自编码器(SLCVAE)的方法,以解决 CVAE 模型中 KL-vanishing 问题,提高文本生成多样性。同时,提供了一个大型本地一对多数据集,支持此方法的研究。
Mar, 2019
通过使用基于变分自编码器的 Transformer 结构和课程学习策略,我们提出了 SignAvatar 框架,在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据,通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。
May, 2024
本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成,以及改进行为识别和降噪等两种应用。
Apr, 2021
本文提出了一种名为 VOLTA 的模型,它采用变分自编码器框架和共享后骨干网络作为其编码器和解码器,通过添加 InfoGAN 风格的潜在代码来实现生成多样性和不受输入控制的可控性,实验结果表明,相对于同类模型,VOLTA 能够显著提高生成多样性和可控性。
Jul, 2023
本文提出了一种基于学习的方法,可以使用不完整的驾驶信号,如人体姿势和面部关键点,来建立全身化身,从而实现高质量的人类几何和视角相关的外观表现,同时通过分离驾驶信号和生成因素来提高可驾驶性和泛化性,还提出了一种可学习的局部压缩驾驶信号方法,以便更好地泛化,从而产生适合于特定应用的缺失因素插值策略,最后在利用来自环境中放置的最小传感器和固定在 VR 头显上的驾驶信号来实现虚拟遥感的全身动画问题上证明了本方法的有效性。
May, 2021
用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力,如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束,提出了一种新的专家混合先验方法,软指导每个模态的潜编码向共享的聚合后验靠近,从而得到一个更好的潜编码表示,并提高了对缺失数据模态的填充能力。在多个基准数据集和具有挑战性的现实神经科学数据集上进行了广泛实验证明,与现有方法相比,学到的潜编码表示和缺失数据模态的插补有所改进。
Mar, 2024