零構人體多人舞蹈生成
本研究提出了一种零样本组合条件下生成人物 - 物品交互视频的方法,并使用一种新型对抗框架 HOI-GAN 进行探索和验证,在两个具有挑战性的数据集:EPIC-Kitchens 和 20BN-Something-Something v2 上进行了广泛的定量和定性评估。
Dec, 2019
提出了一种分层舞蹈视频识别框架 (HDVR),它通过估计 2D 姿势序列,跟踪舞者,并同时估计相应的 3D 姿势和 3D 到 2D 成像参数来提取舞蹈的层次结构。我们在多人跟踪和通过 LSTM 网络识别舞蹈类型方面优于现有的 3D 姿势估计方法。
Sep, 2021
本文介绍了一个用于多人音乐驱动舞蹈生成的大规模数据集 AIOZ-GDANCE,并提出了一种新的方法来生成多人一致的舞蹈,同时还提出了新的评估度量标准来衡量生成的舞蹈质量。
Mar, 2023
在这篇论文中,我们介绍了一种名为合作伴舞生成的新型多舞者合成任务,旨在合成能够与用户一起跳舞的虚拟人舞者,其核心是在保持与领舞者的时间协调的同时确保生成的合作伴舞的可控性多样性。我们提出了一个称为 DanY 的三阶段框架,通过引入不同舞蹈姿势的动作采集、相似度协调和舞蹈动作转移来实现这一目标。通过对我们的 AIST-M 数据集的全面评估,证明了 DanY 可以以可控的多样性合成令人满意的合作伴舞结果。
Aug, 2023
提出了一种名为 “Dancing Avatar” 的方法,通过文本和姿势驱动,利用训练良好的 T2I 扩散模型生成逐帧人体运动视频,同时保持上下文相关性、人物外观一致性和背景连续性,实现生成具有出色质量的人类视频。
Aug, 2023
可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗?我们提出了 GenZI,这是第一个零样本方法,用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识,这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置,我们首先利用 VLMs 来想象描绘在场景的多个渲染视图中的可信的二维人交互。然后,我们通过与 2D 交互假设的一致性引导,制定一个鲁棒的迭代优化过程,合成场景中的 3D 人模型的姿态和形状。与现有的基于学习的方法相比,GenZI 避免了传统上对捕获的 3D 交互数据的需求,并允许使用简单易用的文字提示对 3D 交互合成进行灵活控制。大量实验证明我们的零样本方法具有高灵活性和广泛适用性,可适用于包括室内和室外环境在内的各种场景类型。
Nov, 2023
本文中,我们定义了一个新的问题,即指代人类舞蹈生成,并且介绍了一种名为 DISCO 的新方法,该方法利用一种新的模型架构,并且采用分离式控制,以提高舞蹈合成的保真度和可组合性,并采用有效的人类特征预训练以实现更好的通用性。结果表明,DISCO 可以生成高质量的人类舞蹈图像和视频,具有多种外观和灵活的动作。
Jun, 2023
文章提出了一个以姿势感知损失的学习方法来自动生成符合音乐的舞蹈视频。文章使用两个区分器来捕捉序列的不同方面,并提出新的姿态感知损失来产生自然的舞蹈,同时还提供了一种新的跨模态评估来评估舞蹈质量。最终,通过一项用户研究,证明了所提出的方法生成的舞蹈视频具有惊人的逼真效果。
Dec, 2019
该文提出了一种零样本图片和谐方法,该方法利用了人类长期对和谐图片的先验知识,并通过预训练的生成模型来实现先验,同时引入注意力约束文本来指导和谐方向,并设计一定的方法来保持前景内容结构。实验表明了该方法的有效性。
Jul, 2023