- Nymeria: 野外大规模多模态自我中心的日常动作数据集
介绍了一个大规模的人体运动数据集 Nymeria,在野外使用多个多模态视角设备收集。数据集具有全身三维运动真实值、多模态视角设备的记录以及附加的第三人称视角设备。数据集还提供了三维场景点云和校准的注视估计。定义了几个关于自我中心身体追踪、动 - PACER+: 驾驶场景中的即时行人动画控制器
我们的研究论文致力于解决行人模拟中内容多样性与可控性的挑战,通过在特定轨迹下追踪运动部位并实现多样化的人体运动,提供更真实、适应性更强的行人模拟。
- 人类动作生成的背景及目的
我们提出了一种新的方法,基于神经离散表示学习,用于生成人类运动以填充 3D 室内场景,并利用场景、上下文信息等多种组合的调控信号进行控制,解决了现有方法的局限性,使得模型在质量和多样性上优于现有的特定上下文信息的方法。
- CVPRHumMUSS: 使用状态空间模型进行人体动作理解
基于状态空间模型,我们提出了一种新颖的无注意力空间时间模型,用于人体运动理解,兼具离线和实时应用的功能,并在各种动作理解任务中达到了变压器模型的性能水平。
- 运用数字感知技术进行人类生物力学过程的远程感知和分析:一种非接触式负荷和关节力量评估方法
该研究提出了一个创新的计算机视觉框架,旨在通过与现有软件的无缝集成来分析工业环境中的人体运动,以增强生物力学分析。该框架利用先进的图像处理和建模技术,通过卷积神经网络(CNNs)、直接线性变换(DLT)和长短期记忆(LSTM)网络准确地检测 - CVPRRELI11D: 一份综合多模态人体动作数据集与方法
通过多模态人体运动数据集 RELI11D 及基于多模态融合策略的多模态基线 LEIR 的研究,展示了在高质量的人体运动数据集中整合多种模态可以提升人体姿势估计 (HPE) 性能的可行性。
- CVPRMMVP: 一个带有视觉和压力传感器的多模态运动捕捉数据集
我们提出了一个名为 MMVP 的多模态 MoCap 数据集,其中包括视觉和压力传感器,提供了与 RGBD 观察同步的准确和密集的足底压力信号,尤其适用于形状估计、姿态拟合和全局平移跟踪。
- TRAM:来自野外视频的 3D 人体全局轨迹与运动
我们提出了 TRAM 方法,一个两阶段的方法,从野外视频中重建人类的全局轨迹和运动。通过增强 SLAM 以在存在动态人类的情况下恢复相机运动,并利用场景背景来推导运动尺度。利用恢复的相机作为度量尺度参考帧,我们引入一个视频转换模型 (VIM - 学习联合嵌入空间的三模态动作检索
LAVIMO 是一个三模态学习的创新框架,通过加入人类中心视频作为额外模态,有效地弥补了文本和动作之间的差距,利用特殊设计的注意机制促进了文本、视频和动作模态之间的增强对齐和协同效应,在多个与动作相关的跨模态检索任务中实现了最先进的性能。
- 通过查询扭曲进行人类视频翻译
本文提出了 QueryWarp 框架,一种用于时域连贯人体动作视频转换的新型方法。通过构建不同帧之间查询标记的时域相关性,我们使用外观流来对先前帧的查询标记进行变形,以与当前帧的查询标记对齐,从而在输出的自注意层上施加了显式约束,有效地保证 - T2M-HiFiGPT: 从文本描述中生成高质量的人体运动,使用离散残差表示
我们介绍了 T2M-HiFiGPT,这是一种生成人体动作的新型条件生成框架,其基于 RVQ-VAE 和双层 GPT 结构。我们的研究表明,我们基于 CNN 的 RVQ-VAE 能够产生高精度的 2D 时间 - 残差离散动作表示。我们的双层 - CG-HOI: 接触引导的三维人体物体交互生成
我们提出了 CG-HOI,这是第一个解决从文本中生成动态 3D 人物 - 物体交互(HOIs)任务的方法。我们通过在训练和推断过程中显式地建模人体表面与物体几何之间的接触来引导人体和物体的运动,从而生成更真实、物理上可行的交互序列。
- 将单目图像和稀疏 IMU 信号融合用于实时人体运动捕捉
将 RGB 图像与惯性信号相结合的实时人体运动捕捉方法通过双坐标策略利用不同目标的 IMU 信号进行完全探索,并引入了隐藏状态反馈机制以应对极端输入情况。定量和定性结果表明,通过精心设计的融合方法,我们的技术在全局方向和局部姿势估计上明显优 - 擴散態慣性姿態估計:從任意稀疏 IMU 配置中重建人體運動
这篇论文介绍了一种名为 “Diffusion Inertial Poser”(DiffIP)的单一扩散生成模型,能够从任意 IMU 配置实时重构人体运动。该系统具有灵活性,适用于不同的应用,且与常用的六个 IMU 配置一样准确。
- 一个博弈理论框架用于共同预测和规划
通过学习人类常常防范的对策,我们提出一种新颖的博弈论框架,用于联合规划和预测,以提高机器人在人群导航中的安全性。
- 图像和视频的三维人体姿态估计的双链约束
本文提出了一种名为 Double-chain Graph Convolutional Transformer (DC-GCT) 的新模型,通过局部到全局和全局到局部的双链设计来约束姿势,并结合 GCN 和 Transformer 的优势以及 - MotionGPT:以人类动作为外语
本文提出了一种统一的,多功能的运动语言模型 MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
- Motion-DVAE: 快速人体运动去噪的无监督学习
Motion-DVAE 是一种用于捕捉人类动作的短期依赖项的动作先验,与 Motion-DVAE 配套使用的是一种无监督学习去噪方法来进行实时三维人体姿势估计。
- TWR-MCAE: 一种用于穿墙雷达人体运动识别的数据增强方法
提出了一种利用多级自编码神经网络的数据增强方法(TWR-MCAE)来解决通过墙体雷达(TWR)的准确性下降和收敛时间延长的问题。通过使用 SVD 数据预处理模块、改进的坐标注意力模块、压缩感知可学习迭代收缩阈值重构算法(LISTA)模块和适 - 人类运动扩散模型
本文引入了 Motion Diffusion Model(MDM),这是一种经过精心设计的无分类器扩散生成模型,适用于人体运动领域,并在文本转运动和动作转运动的领先基准测试中实现了最先进的结果。