多智能体注意力活动识别
通过多模态对比预训练方法 MuJo,利用视频、语言、姿势和 IMU 传感器数据,改善了不同模态下的人类活动识别性能,在 MM-Fit 数据集上达到了令人印象深刻的宏平均 F1-Score 为 0.992 和 0.999 的分类效果,同时展示了最高达 0.638 的泛化性能。
Jun, 2024
本文通过基于自注意力机制的神经网络模型,有效地解决了从身体穿戴传感器数据中提取人类活动的空间和时间序列信号依赖性识别的问题,并在四个流行的 HAR 数据集上进行了大量实验,获得了显著的性能改进。
Mar, 2020
本文提出了一种基于知识蒸馏的多模态中融合方法,即 DMFT,以在多模态人类活动识别任务中进行信息特征提取和融合,解决深度学习方法无法充分探索跨多模态信息融合的问题,并通过评估表明该方法在有效性,可扩展性和鲁棒性方面均取得了有竞争力的表现。
May, 2023
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
综合不同的感知模态与多个位置有助于形成对人类行为等复杂情况的统一感知和理解,因此,人类活动识别受益于综合冗余和互补信息(单模态 / 多模态)。然而,这并不是一项容易的任务,它需要多学科的方法,包括传感器技术、信号处理、数据融合算法和领域特定知识。本博士研究使用惯性、压力(音频和大气压力)和纺织电容感应等感知模型进行人类活动识别。所探索的场景包括手势和手部位置跟踪、面部和头部模式识别以及身体姿势和手势识别。所选择的可穿戴设备和感知模型完全集成了基于机器学习的算法,其中一些实现在嵌入式设备上,并在实时环境中进行了测试。
Apr, 2024
本文提出了将图形数据结构应用于音频和视觉信号融合的新方法,将多模式的音视频特征分配给先前检测到的语音事件,实现了 88.8%的 AV-ActiveSpeaker 数据集性能最优。
Jan, 2021
通过将传感器数据分类任务转化成游戏,并引入深度强化学习和注意力机制,我们建立了一个具有竞争力的分类器,该分类器适用于具有复杂情况的应用领域,如医疗保健和娱乐等。
Apr, 2018
研究人类运动轨迹预测,提出基于注意力机制的轻量级循环模型并结合基于场景感知的目标估计模块,应用于公共数据集,能够在保证预测准确性的前提下,减少模型复杂度。
Apr, 2022
提出了一种基于结构稀疏性的联合稀疏回归学习方法,利用来自稀疏部位集的多模态特征的组合将每个动作建模为结构稀疏性,以此来表示各个部位的动态和外观。
Jul, 2015
本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法,在我们的新教育活动数据集上进行了比较实验,该数据集包括从小学捕捉的大量具有挑战性的课堂视频。
May, 2023