统一多模态运动生成的大型运动模型

Apr, 2024

统一多模态运动生成的大型运动模型

Large Motion Model for Unified Multi-Modal Motion Generation

Mingyuan Zhang, Daisheng Jin, Chenyang Gu, Fangzhou Hong, Zhongang Cai...

TL;DR大运动模型（LMM）是一个以运动为中心的多模态框架，将主流的运动生成任务统一为一个通用模型，并通过综合不同类型的运动数据和任务来实现广泛泛化。

Abstract

Human motion generation, a cornerstone technique in animation and video production, has widespread applications in various tasks like text-to-motion and music-to-dance. Previous works focus on developing speciali

motion generation animation video production generalist model motion data

发现论文，激发创造

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

MotionLLM：从人体动作和视频中理解人类行为

该研究通过利用大型语言模型（LLMs）的强大功能，深入探讨多模态（即视频和运动模态）人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同，我们认为理解人类行为需要从视频和运动序列（例如 SMPL 序列）中进行联合建模，以有效捕捉微妙的身体部位动态和语义。因此，我们提出了 MotionLLM，一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言，MotionLLM 采用统一的视频 - 动作训练策略，利用现有的粗糙视频 - 文本数据和细粒度动作 - 文本数据的互补优势，获取丰富的时空洞察力。此外，我们还收集了一个实质性的数据集 MoVid，其中包含了多样的视频、动作、字幕和说明。此外，我们提出了经过精心手动注释的 MoVid-Bench，以更好地评估在视频和动作上对人类行为理解的能力。广泛的实验结果表明 MotionLLM 在字幕生成、时空理解和推理能力方面具有优势。

May, 2024

FreeMotion：多模态大型语言模型的无动捕人体动作合成

通过利用多语言多模态学习模型（MLLMs）的无动作数据，我们首次探索了基于自然语言指令的开放式人类动作合成，实现了通用的人类动作合成，为未来的研究铺平了道路。

Jun, 2024

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

MMM：生成遮蔽动作模型

基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器，MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射，并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码，从而同时实现了高保真度和高速度的动作生成。此外，MMM 具有固有的动作可编辑性，只需在需要编辑的位置放置掩码标记，即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法（FID 得分分别为 0.08 和 0.429），同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外，与可编辑动作扩散模型相比，MMM 在单个中档 GPU 上的速度提高了两个数量级。

Dec, 2023

大型语言模型驱动的上下文感知运动预测

通过利用大型语言模型（LLMs）增强全局交通语境理解来提高动作预测任务的准确性，并考虑到 LLMs 的成本，我们提出了一种成本效益的部署策略：通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。

Mar, 2024

LGTM: 本地到全局的文本驱动人体运动扩散模型

本研究介绍了 LGTM，一种面向文本到动作生成的新颖的本地到全局流程。LGTM 利用扩散式架构，旨在解决将文本描述准确转化为在计算机动画中语义一致的人体动作的挑战。我们通过引入两阶段的流程来克服语义差异的问题，首先使用大型语言模型将全局动作描述分解为特定部位的叙述，然后使用独立的身体部位运动编码器处理以确保准确的局部语义对齐。最后，基于注意力机制的全身优化器对运动生成结果进行细化，并确保整体一致性。实验结果表明，LGTM 在生成局部准确、语义对齐的人体动作方面取得了显著改进，标志着文本到动作应用的重要进展。

May, 2024

大型语言模型作为城市居民：用于个人移动生成的 LLM 代理框架

这篇论文介绍了一种使用大型语言模型（LLM）融入到代理框架中的创新方法，用于灵活高效的个性化移动生成，并重点解决了将 LLMs 与现实世界的城市移动数据对接的三个研究问题：将 LLMs 与丰富的活动数据对接、开发可靠的活动生成策略以及探索 LLMs 在城市移动中的应用。

Feb, 2024

大型多模态模型 (LMM) 作为面向 AI 原生无线系统的通用基础模型

本文解决了利用大型语言模型（LLMs）和基础模型设计人工智能（AI）本地网络的问题，提出了一种以无线为中心的基础模型架构，其中包括多模态模型，通过神经符号 AI 进行逻辑和数学推理，并展示了 RAG 在 LMMs 中的有效性，以及 LMMs 相对于 vanilla LLMs 在数学问题回答方面表现出的增强的推理能力。

Jan, 2024