惯性测量单元基于跨模态迁移学习在人体活动识别中的调查
在人类活动识别领域,缺乏大型标记数据集是主要挑战之一。为了解决数据稀缺的问题,最近开始研究跨模态迁移方法,将现有数据集从源模态(如视频)转换为目标模态(IMU)。本研究通过大规模评估语言驱动的跨模态迁移,提出了两个针对实际人类活动识别应用场景的 IMUGPT 扩展,一个是能够滤除无关动作序列以确保生成虚拟 IMU 数据的相关性的动作过滤器,另一个是一套用于测量生成数据多样性的指标,帮助确定何时停止生成虚拟 IMU 数据以实现有效和高效的处理。我们证明了我们的多样性指标可以减少生成虚拟 IMU 数据所需的工作量至少 50%,从而使 IMUGPT 在纯概念证明之外具备实际应用的价值。
Feb, 2024
通过多模态对比预训练方法 MuJo,利用视频、语言、姿势和 IMU 传感器数据,改善了不同模态下的人类活动识别性能,在 MM-Fit 数据集上达到了令人印象深刻的宏平均 F1-Score 为 0.992 和 0.999 的分类效果,同时展示了最高达 0.638 的泛化性能。
Jun, 2024
综合不同的感知模态与多个位置有助于形成对人类行为等复杂情况的统一感知和理解,因此,人类活动识别受益于综合冗余和互补信息(单模态 / 多模态)。然而,这并不是一项容易的任务,它需要多学科的方法,包括传感器技术、信号处理、数据融合算法和领域特定知识。本博士研究使用惯性、压力(音频和大气压力)和纺织电容感应等感知模型进行人类活动识别。所探索的场景包括手势和手部位置跟踪、面部和头部模式识别以及身体姿势和手势识别。所选择的可穿戴设备和感知模型完全集成了基于机器学习的算法,其中一些实现在嵌入式设备上,并在实时环境中进行了测试。
Apr, 2024
由于 HAR 中标记传感器数据的稀缺性,先前的研究已经转向使用视频数据合成惯性测量单元(IMU)数据,利用其丰富的活动注释。然而,在真实环境中从视频生成 IMU 数据对 HAR 提出了挑战,归因于合成 IMU 数据的质量较差且在细微、细粒度动作方面的效果有限。本文提出了我们的新颖多模态、多任务和对比基于框架方法 Multi$^3$Net 来解决数据有限的问题。我们的预训练过程使用在线存储库的视频,旨在同时学习文本、姿势和 IMU 的联合表示。通过使用视频数据和对比学习,我们的方法旨在增强可穿戴 HAR 性能,特别是在识别细微活动方面。我们的实验结果验证了我们的方法在利用 IMU 数据改善 HAR 性能方面的有效性。我们证明,使用我们的方法从视频生成的合成 IMU 数据训练的模型在识别细粒度活动方面超越了现有方法。
Jun, 2024
通过聊天 GPT 生成不同的文本描述活动的文字描述,通过运动合成模型 T2M-GPT 生成 3D 人体运动序列,然后转换成流的模拟 IMU 数据,将其与部分真实 IMU 数据结合训练 HAR 模型可以显著提高其性能
May, 2023
为了改进基于可穿戴传感器的人体活动识别,本文提出了一种从 3D 骨架姿势序列中直接生成传感器数据的姿势到传感器网络模型,并同时训练姿势到传感器网络和人体活动分类器,通过优化数据重构和活动识别来改进性能。实验结果表明该框架优于基线方法,并在 MM-Fit 数据集上取得了显著的性能提升。
Apr, 2024
本文提出了一个名为 CMC-CMKM 的多模态自监督学习框架,可以学习到更好的人体活动识别特征。在两个广泛使用的数据集上进行的广泛实验表明,该框架在不同场景下的性能显著优于对比单模态和多模态基线,在有些情况下甚至可以与监督方法相竞争。
May, 2022