多媒体 '23: 社交互动中的参与度估计和身体行为识别
本文介绍了 BBSI 的方法和结果,BBSI 是对连续社交互动中复杂身体行为的第一个注释集,其包含了 15 个不同的身体语言类别,并采用四个空间 - 时间特征变体作为 PDAN 的输入来自动检测这些行为,结果表明这是一个困难的任务,但有很大改进的空间。
Jul, 2022
我们的研究团队 HFUT-VUT 在 ACM Multimedia 2023 的 MultiMediate Grand Challenge 2023 中的解决方案覆盖了三个子挑战:身体行为识别,眼神接触检测和下一个发言者的预测。我们选择 Swin Transformer 作为基线,并利用数据增广策略来解决上述三个任务。具体来说,我们裁剪原始视频以去除其他部分的噪声。同时,我们利用数据增广来提高模型的泛化能力。结果,我们的解决方案在平均精度均值方面对身体行为识别取得了最佳结果 0.6262,并在相应的测试集上的眼神接触检测精确度方面获得了 0.7771 的准确率。此外,我们的方法在下一个发言者的预测方面也实现了 0.5281 的不加权平均召回率的可比较结果。
Aug, 2023
我们提出了一种在日常情景中准确捕捉和表达两个人之间交互行为的问题的解决方案,与先前的工作不同,我们同时模拟两个人的活动,并针对常常持续较长时间的以目标驱动、动态和连贯性交互为目标,我们捕捉了一个名为 InterAct 的新数据集,其中包含 241 个运动序列,两个人在整个序列中表演一个真实情景,我们的数据集中捕捉到了两个人的音频、肢体动作和面部表情。我们还演示了一种基于扩散模型的方法,仅通过音频直接估计两个人之间的互动动作。所有数据和代码将在论文接受后可供研究目的使用。
May, 2024
提出了一种名为 MAGIC-TBR 的多视角注意力融合方法,通过基于变压器的方法结合从视频中提取的特征和相应的离散余弦变换系数,探索细节行为(如手势、整理或笨拙)的检测。在 BBSI 数据集上进行了实验,结果证明了所提特征融合与多视角注意力的有效性。
Sep, 2023
本研究提出一种社交信号预测问题及数据集,通过数据驱动的方法对互动个体之间交换的社交信号动态进行建模,为机器赋予与人类交流的能力,称为社交人工智能,通过一个三方社交互动场景的 3D 运动捕捉数据集,提出预测互动个体的语言状态、社交形态和身体姿势的基线方法,并提出一个定义明确的社交预测框架。
Jun, 2019
本文综述了过去在人机交互中与情感参与度推测相关领域的前沿工作,包括交互上下文、情感组成因素及其影响、公开数据集、认证准确度、最常用的特征和方法,指导未来开发致力于可靠的上下文感知和情感推测能力的人机交互界面。
Sep, 2022
本文提出一种基于场景图,利用图像序列提取关键交互特征并编码动作模式和上下文的方法,同时引入基于事件的自动视频分割和聚类,成功地实现了识别手 - 物体和物体 - 物体交互,并匹配不同受试者执行的同一活动。
Apr, 2023
本研究提出了一种可扩展可靠的众包方法,用于收集自然状态下的人类身体语言数据,建立了一个大型数据集并通过统计分析揭示了许多有趣的想法。通过使用 Laban Movement Analysis 等特征,我们开发并评估了一个名为 ARBEE 的系统,该系统能够基于身体动作识别情感表达。
Aug, 2018
EmoPain 2020 挑战是第一个国际比赛,旨在创建一个统一的平台,用于比较机器学习和多媒体处理方法,以便从人类表情行为中进行自动慢性疼痛评估,并识别与疼痛相关的行为。该挑战旨在通过实时监测和反馈,帮助管理病情并保持身体活动,促进较少使用但至关重要的身体表达信号对于自动疼痛和疼痛相关情绪识别的使用。本文介绍了挑战的描述,比赛指南,基准数据集以及三个子任务的基线系统架构和性能:从面部表情中估计疼痛,从多模态运动中识别疼痛,以及检测保护性运动行为。
Jan, 2020
利用深度神经网络研究了人类多模态行为识别算法,通过整合不同的深度神经网络对不同模态的视频信息进行适应以成功识别多个模态的行为,利用微软 Kinect 开发的多个摄像头采集传统图像并提取运动特征,将两种方法识别出的行为特征综合起来以实现行为的准确识别与分类,实验结果表明该算法在识别行为和检测视频素材中的行人行为的准确度上有显著提升。
May, 2024