关键词text-to-motion generation
搜索结果 - 12
- 面向开放领域的多人动作驱动文本合成
本研究旨在从文本描述中生成多个人的自然和多样化的群体动作。我们利用大规模图像和视频数据集估计姿势信息,通过基于 Transformer 的扩散框架,实现了多个数据集中任意数量主题或帧的生成。实验证明,我们的方法是第一个能从多样的文本提示中生 - LGTM: 本地到全局的文本驱动人体运动扩散模型
本研究介绍了 LGTM,一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构,旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题,首先使用大型语言模型将全局动作 - CVPR探索人类偏好的文本生成动作
该论文探讨了在文本到动作生成中的首选学习,指出当前的文本到动作生成仍依赖于需要具备专业知识的数据集和动作捕捉系统;而从人类偏好数据学习则不需要动作捕捉系统,只需没有专业知识的标注人员比较两个生成的动作。我们提供了 3,528 个由 Moti - BAMM: 双向自回归运动模型
提出了一种新的文本到动作生成框架:Bidirectional Autoregressive Motion Model (BAMM),它由两个关键组件组成:将 3D 人体动作转换为潜在空间中的离散标记的动作分词器和通过混合注意掩蔽策略自回归预 - 计划、姿势与前行:走向开放世界的文本转动作生成
该研究提出了名为 PRO-Motion 的拆分与解决框架,由运动规划器、姿势扩散器和动作扩散器三个模块组成,通过指示大型语言模型生成描述目标动作关键姿势的脚本序列,转化为真实的运动,从而实现了从复杂的开放世界提示生成多样且逼真的运动。
- OMG:通过混合控制器实现开放词汇的动作生成
基于 OMG 框架,我们通过预训练和微调将文本转动作的生成过程进行改进,并引入 motion ControlNet 和 Mixture-of-Controllers 模块,实现了针对零样本文本生成动作的显著提升。
- MMM:生成遮蔽动作模型
基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器,MMM 明确捕捉动 - 引导注意力的可解释运动字幕
从动作生成文本的研究,关注体部特定区域与动作的时间同步,通过运动编码和时空注意模型的结合,引入引导注意力及自适应门控训练策略,实现解释性生成并在性能上有所提升。
- ICCV优先级中心的离散潜空间人体运动生成
文本到动作生成是一项艰巨的任务,本文介绍一种优先级中心的运动分散扩散模型(M2DM),利用基于 Transformer 的 VQ-VAE 得出简洁的、离散的动作表示,通过全局自注意机制和正则化项来抵消代码坍塌。我们还提出了一种运动离散扩散模 - MM通过一致的采样使用扩散模型合成长期人类运动
我们提出了一种新方法,利用过去条件扩散模型和两种可选的相干采样方法:过去修复采样和组合过渡采样,实现由用户指导的长文本流控制的组合和连贯的长期三维人体动作生成。
- SINC: 三维人体动作的空间组合生成同时动作
本研究旨在使用文本输入综合 3D 人体动作,通过 GPT-3 提取编码的动作身体部位对应关系,创建自动化方法合成两种动作,并使用 SINC 模型训练进行文本生成三维人体动作,实验中发现使用合成的 GPT 引导组合动作可以优化训练结果。
- 由无生有:无言训练的开放词汇文本生成动作
本文探讨了在零样本学习中的离线开放词汇文本到动作生成,使用一个预训练的运动生成器从被遮蔽的运动中学习来重建全动作,利用一个文本到姿态生成器合成未被遮蔽的姿态来构建提示,使用了文本 - 姿态对齐模型和新颖的无文字训练机制来提高效率和稳定性。