OMG:通过混合控制器实现开放词汇的动作生成
本文探讨了在零样本学习中的离线开放词汇文本到动作生成,使用一个预训练的运动生成器从被遮蔽的运动中学习来重建全动作,利用一个文本到姿态生成器合成未被遮蔽的姿态来构建提示,使用了文本 - 姿态对齐模型和新颖的无文字训练机制来提高效率和稳定性。
Oct, 2022
该研究提出了名为 PRO-Motion 的拆分与解决框架,由运动规划器、姿势扩散器和动作扩散器三个模块组成,通过指示大型语言模型生成描述目标动作关键姿势的脚本序列,转化为真实的运动,从而实现了从复杂的开放世界提示生成多样且逼真的运动。
Dec, 2023
MotionClone 是一个无需训练的框架,通过时间注意力机制从参考视频中克隆运动以控制文本到视频生成,同时引入了区域感知的语义引导机制提升生成模型的空间关系和随机应变能力,实验结果显示 MotionClone 在全局摄像机运动和局部目标运动方面表现出色,并具有运动保真度高、文本对齐准确和时序一致等显著优势。
Jun, 2024
基于扩散模型的文字引导图像生成在开放领域图像处理任务中取得了令人惊讶的进展,本研究提出了一种混合专家控制器的方法,以将不同类型的人类指令与不同的扩散模型的文字引导能力相结合,实现对各种开放领域图像处理任务的处理。
Sep, 2023
本文提出了一种方法,将开放词汇场景编码器与架构相结合,建立了文本和场景之间的强大连接;方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器,确保了一个共享的文本 - 场景特征空间,并通过引入两种新的正则化损失,用于回归目标对象的类别和尺寸,在条件运动生成时对场景编码器进行微调;通过在 HUMANISE 数据集上进行的评估和知觉研究,我们的方法相比先前最先进的基准模型,可以使目标对象距离指标减少高达 30%;此外,我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。
Apr, 2024
CoMo 是一种可控运动生成模型,通过利用大型语言模型的先验知识,在准确生成和编辑动作方面表现出色。它将动作分解为离散且语义上有意义的姿势代码,每个代码都包含身体部位的语义信息,如 “左膝稍微弯曲”。通过调整姿势代码,CoMo 可以实现直接干预动作编辑。实验证明,与最先进的模型相比,CoMo 在运动生成方面具有竞争力,在人体研究中,CoMo 在动作编辑能力方面远远超过以前的工作。
Mar, 2024
提出了一种新的框架 ODMO,用于仅以动作类型为条件生成逼真且多样化的长期 3D 人体运动序列,并具有自定义功能。该编码器使用对比学习来创建运动序列的分层嵌入,解码器使用分层解码策略,使得整个运动序列的木乃伊能够被重构,从而实现了有效的运动轨迹控制,从而实现了首个模式发现、插值和轨迹自定义等自定义功能,该代码在 Github 页面上发布。
Jul, 2022
个性化是文本到图像生成中的重要主题,尤其是具有挑战性的多概念个性化。本文提出了一种名为 OMG 的遮挡友好型个性化生成框架,旨在在单个图像中无缝集成多个概念,解决身份保留、遮挡和前景与背景的和谐性问题。通过提出的两阶段采样解决方案,OMG 表现出在多概念个性化方面的卓越性能。
Mar, 2024
基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点,本文提出了使用多角度注意机制的两阶段方法,即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制,通过生成变压器实现文本驱动的运动生成,在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术,并实现了精细合成和动作生成。
Sep, 2023
基于去噪扩散模型,我们提出了一种用于文本控制的场景感知运动生成方法。该方法通过预训练场景不可知的文本到运动扩散模型,并利用包含详细场景信息的增强数据对模型进行微调,产生逼真多样的人 - 场景互动。
Apr, 2024