RELI11D: 一份综合多模态人体动作数据集与方法
本论文提出了一种新的分层式视觉 - 运动融合框架用于场景流,通过将事件作为 RGB 和 LiDAR 之间的桥梁,探索同质化空间来融合跨模态的互补知识,从而逐步改善场景流。
Mar, 2024
本文提出了一种在自动驾驶方案中的多模态方法,使用 2D RGB 图像的弱监督进行 3D 人体姿势估计(HPE),进而在 Waymo 开放数据集中取得了比仅基于相机和 LiDAR 的模型更好的效果。
Dec, 2021
HUMAN4D 是一种多模态体积数据集,提供了关于人类日常、物理和社交活动的各种姿势和动作的数据,同时提供多 RGBD、音频和音量数据。该数据集的介绍旨在推动计算机视觉和图形研究社区对空间和时间对齐的姿势、音量、mRGBD 和音频数据线索的联合研究,同时提供了人类姿势估计和三维压缩等方面的评估基线。
Oct, 2021
使用 RGB 和 LiDAR 技术的端到端架构,以前所未有的准确度预测绝对的三维人体姿势,同时采用 PedX 的二维姿态注释生成三维预测。
Oct, 2020
提出了人性化的 4D 场景捕捉(HSC4D),使用 IMUs 和 LiDAR 进行全空间和无地图的动态数字世界创建,并将它们用于长期捕捉。同时,关注人与环境之间的关系,以实现交互更为真实。提出了一个包含准确动态人体运动和位置的大型场景数据集,可用于多个下游任务。
Mar, 2022
本文介绍了一个用于人类活动识别的多模态基准数据集 WEAR,其中包括了视觉和可穿戴设备的数据,有效地提高了各种算法的性能表现。此外,我们还展示了基于 Transformer 的视频动作检测模型在惯性和多模态人类活动识别方面的可行性,这是第一次使用此方法进行探索。
Apr, 2023
该研究致力于提供一种通过廉价视频和自定义传感器记录的数据集来实现人体姿态跟踪和运动重建的方法,以支持远程的日常生活活动识别和运动学分析等问题。通过对 54 名受试者进行研究,验证了该数据集具有良好的临床应用价值和相关的不扰动采集协议,并可以提供人体关节角度的全面图像。
Mar, 2023
我们提出了一种用于捕捉人类和物体的三维运动的单目方案,结合通用动作推断和基于类别的运动扩散模型,在使用极少量的 RGB 相机和物体安装的惯性测量单元(IMU)的新颖环境中,通过综合处理 IMU 信号和 RGB 流重新恢复人体运动和物体运动,从而大幅度提炼初始结果并生成生动的身体、手部和物体运动。
Dec, 2023
通过自己收集的大规模岩石攀登动作数据集 CIMI4D,我们在人 - 场景交互方面进行了详细研究并进行了四项任务的实验,结果表明 CIMI4D 对现有方法提出了巨大挑战,并提供了广泛的研究机会。
Mar, 2023
通过提出的多阶段多模态融合模型 RPEFlow,将 RGB 图像、点云和事件相机用于联合光流和场景流估计,并引入注意力融合模块以及互信息正则化项来提高性能。实验结果表明,该模型在合成和真实数据集上优于现有的最先进方法。
Sep, 2023