- 学习任务的替代方法
通过学习少量执行任务的示例,我们引入了一种归纳性方法来学习多种模型,每个模型都代表一种执行任务的替代策略。我们将此方法应用于手术技能训练和烹饪领域的常见活动识别任务,并通过评估模型是否能够代表示例并捕捉执行任务的不同形式来验证其有效性。研究 - EventSleep: 使用事件相机进行睡眠活动识别
通过提供 EventSleep 数据集和方法,我们展示了事件相机在黑暗环境下的高准确性和鲁棒性,以及在睡眠监测和活动识别领域的潜力和应用。
- 可穿戴设备中推进无关位置和设备的运动活动识别
我们通过对多个传感器位置的全面评估,确定了建立位置不变模型的关键身体部位,并开发了可部署的设备内动作模型,实现了 91.41%的帧级 F1 得分。我们还研究了不同位置数据的合成,以减轻数据收集任务的负担,从而推进低门槛、位置不变的活动识别系 - WiMANS:一份用于基于 WiFi 的多用户活动感知的基准数据集
基于 WiFi 的多人活动感知的首个数据集 WiMANS 在多个环境中监测了多个用户的同时活动,并包括双 WiFi 频段的信道状态信息以及视频,用于评估 WiFi 和基于视频的人类感知模型的性能,为多用户识别、本地化和活动识别提供新的挑战和 - 基于 UWB 多静态无线电的非设备式人体状态估计
利用低成本的 Ultra-Wide Band(UWB)传感器和深度学习网络,我们提出了一个人类状态估计框架,能够在室内环境中无需特定设备的情况下估计人的位置和活动,实现精确的定位和活动识别。
- ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别
提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构,用于通过 RGB 视频进行活动识别,该架构通过使用 CNN 网络增强视频表示,然后将其传递给 Transformer 来提取时空标记,从而实现了新的 SOTA 结 - 基于视觉的人体姿态估计的旋转矩阵增强
利用姿势估计数据结合新颖的数据增强方法,即旋转矩阵,提出了一种模型,旨在提高基于姿势估计数据的活动识别分类准确性。实验结果表明,使用 SVM 及 SGD 优化,结合旋转矩阵的数据增强技术,可以达到 96% 的准确率在五种不同体育运动的分类中 - 解码人类活动:分析可穿戴加速度计与陀螺仪数据进行活动识别
基于 Residual 网络和 Residual MobileNet 集成的分层多结构方法(FusionActNet)能够有效地对不同的人类活动进行分类识别,并在 UCI HAR 和 Motion-Sense 数据集上取得了 96.71% - 传感器人体活动识别的深度神经网络架构和特征提取设计的研究
通过在两个人体活动识别数据集上进行广泛的实验研究,我们调查了常见的深度学习和机器学习方法以及不同的训练机制(如对比学习)和从传感器时间序列数据中提取的各种特征表示的性能,以评估它们在人体活动识别任务中的有效性。
- 取证视频分析软件
通过对学术研究论文、在线数据库和法律文件的严格和系统的审查,开发了一种高效且有效的法庭图像分析软件,涵盖了多个对象检测、活动识别、视频概览等领域,以解决目前在开发中国家中使用复杂、费时、依赖设备并且昂贵的现有软件的问题。
- 辅助生活环境中传感器位置优化的灰箱贝叶斯优化
基于灰盒贝叶斯优化和仿真评估,我们提出了一种新颖的、样本高效的方法,在任意室内空间中找到高质量的传感器布置,用于可靠的跌倒检测、室内定位和活动识别。通过捕捉关于活动空间分布的专业知识,并将其纳入到贝叶斯优化的迭代选择查询点过程中,考虑了两个 - 使用解剖学特征和迭代学习进行自监督优化的手势估计方法
研究报告提出了一种自我监督学习框架,结合手势估计和手势识别,用于解决手势识别在复杂场景中的困难,以提高手动组装场景下的活动识别的准确性和鲁棒性。
- 视觉 - 语言模型能从自然视频中识别分心驾驶员的行为
提出了一种基于 CLIP 的驾驶员活动识别方法,该方法可以从自然驾驶图像和视频中识别驾驶员分心行为,并具有零样本迁移和面向任务的微调的特点。
- 借鉴邻居:通过协作提高活动识别
本文提出了一种增强个人活动预测准确性的方法,通过观察周围的人的行为,显著提高了准确性,这是协作活动识别的第一步,为深入理解群体环境中人类活动带来了新的可能性。
- 深度学习在俯视全景成像中的应用:综述
该论文综述了深度学习在结合全景鱼眼摄像机的视觉任务中的应用,包括物体检测、活动识别等,利用鱼眼镜头的全向视野可以大大减少部署所需的工作和成本。
- VicTR: 视频条件的文本表示用于活动识别
本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。
- LaMPP: 语言模型作为感知和行动的概率先验
使用自然语言处理模型,我们将标签和决策转化成基于概率图模型的推断,进而实现对语义分割、家庭导航和活动识别任务的精确预测,提高对于罕见、不常见以及结构新颖输入的预测能力。
- 基于室内轨迹数据的半监督活动识别方法
研究了使用机器学习对移动对象的活动进行分类的问题,并提出了一种半监督的机器学习方法,该方法通过将轨迹分段并自动标记,最后训练基于卷积神经网络的深度学习分类模型来实现高精度分类,此方法已在一个三轮车装配车间的数据集上进行了评估。
- IMU2CLIP: 从自我视角视频和文本中学习 IMU 运动传感器的多模态对比学习
IMU2CLIP 是一种新型的预训练方法,用于将惯性测量单元(IMU)运动传感器记录与视频和文本对齐,从而在对比度语言 - 图像预训练 (CLIP) 的联合表示空间中将其投影,该方法允许 IMU2CLIP 将人体动作转化为相应的文本描述和视 - CVPR细微动作挑战赛的低分辨率动作识别
本研究旨在解决 Tiny Actions Challenge 实际监控场景中人类活动识别的难题,包括距离影响和类别不平衡等方面,提出了一种综合解决方案。该方案主要引入数据平衡、双分辨率蒸馏框架和模型集成等方法,其中模型集成效果显著优于其他算