融合和混洗全局和局部视角的基于 IMUs 的跨用户人体活动识别的 FLOW
本文介绍了一种新方法,即多视图融合变压器(MVFT),通过编码时间视图、频繁视图和统计视图来生成多视图特征,并提出一种新的注意机制以揭示细节关系建模。实验表明,该方法比几种最先进的方法更优异。
Feb, 2022
由于 HAR 中标记传感器数据的稀缺性,先前的研究已经转向使用视频数据合成惯性测量单元(IMU)数据,利用其丰富的活动注释。然而,在真实环境中从视频生成 IMU 数据对 HAR 提出了挑战,归因于合成 IMU 数据的质量较差且在细微、细粒度动作方面的效果有限。本文提出了我们的新颖多模态、多任务和对比基于框架方法 Multi$^3$Net 来解决数据有限的问题。我们的预训练过程使用在线存储库的视频,旨在同时学习文本、姿势和 IMU 的联合表示。通过使用视频数据和对比学习,我们的方法旨在增强可穿戴 HAR 性能,特别是在识别细微活动方面。我们的实验结果验证了我们的方法在利用 IMU 数据改善 HAR 性能方面的有效性。我们证明,使用我们的方法从视频生成的合成 IMU 数据训练的模型在识别细粒度活动方面超越了现有方法。
Jun, 2024
通过聊天 GPT 生成不同的文本描述活动的文字描述,通过运动合成模型 T2M-GPT 生成 3D 人体运动序列,然后转换成流的模拟 IMU 数据,将其与部分真实 IMU 数据结合训练 HAR 模型可以显著提高其性能
May, 2023
在人类活动识别领域,缺乏大型标记数据集是主要挑战之一。为了解决数据稀缺的问题,最近开始研究跨模态迁移方法,将现有数据集从源模态(如视频)转换为目标模态(IMU)。本研究通过大规模评估语言驱动的跨模态迁移,提出了两个针对实际人类活动识别应用场景的 IMUGPT 扩展,一个是能够滤除无关动作序列以确保生成虚拟 IMU 数据的相关性的动作过滤器,另一个是一套用于测量生成数据多样性的指标,帮助确定何时停止生成虚拟 IMU 数据以实现有效和高效的处理。我们证明了我们的多样性指标可以减少生成虚拟 IMU 数据所需的工作量至少 50%,从而使 IMUGPT 在纯概念证明之外具备实际应用的价值。
Feb, 2024
采用几个附着在人体肢体上的 IMUs 和多视图图像估计人类的 3D 姿态并提出了一种基于几何学的方法,用于增强每对关节的视觉特征并使用它们将多视图 2D 姿势提升到 3D 空间中,这种方法称为方向正则化网络(ORN)。
Mar, 2020
本文提出了一种新颖的多模态人体活动识别系统,并使用了两种流的决策级融合来融合视觉和惯性传感器的信息,通过此方法准确率远高于现有的最先进方法。
Jun, 2023
本文比较了基于惯性测量单元 (IMU) 和基于视频的方法在军事按压和划船运动的人体运动分类中的表现,发现单个摄像头能比单个 IMU 提高 10 个百分点的分类准确率,而至少需要 3 个 IMU 才能超越单个摄像头。同时,使用基于多变量时间序列分类器进行原始数据处理的方法优于基于手工特征或自动提取特征的传统方法。最后,将单个摄像头和单个 IMU 的数据组合起来能超越任一数据模态,为使用智能手机摄像头和单一传感器进行有效的人体运动分类开辟了新的、更现实的途径。
Jul, 2023
利用可穿戴设备进行动作重建已成为一种经济且可行的技术,在稀疏的惯性测量单元(IMUs)数据上建立人体姿势模型存在着困扰,本文通过多传感器的空间重要性和文本描述的监督引入不确定性来获取每个 IMU 的加权特征,并设计了一种层次时间变换器(HTT)和对比学习来实现传感器数据与文本语义的精确时间和特征对齐。实验证明我们的方法在多个指标上相比现有方法有显著改进,尤其是在文本监督下,我们的方法不仅能区分诸如坐下和站起之类的模糊动作,还能产生更精确和自然的动作。
Dec, 2023
本文提出一种名为 DeepFuse 的两阶段全 3D 网络,通过深度融合佩戴式 IMU 数据和多视角图像,实现人体姿态估计。其中第一阶段为纯视觉估计,第二阶段引入 IMU-bone 层,能在数据级别上进行 IMU 和视觉数据融合,不需要预先给出骨架模型。实验结果表明,该方法在各个数据集上均取得了优异的效果,未来有望成为 3D 姿态估计研究的重要方向。
Dec, 2019