MoEmo 视觉变换器：在 HRI 情感检测中整合交叉注意力和运动向量的 3D 姿势估计

Oct, 2023

MoEmo 视觉变换器：在 HRI 情感检测中整合交叉注意力和运动向量的 3D 姿势估计

MoEmo Vision Transformer: Integrating Cross-Attention and Movement Vectors in 3D Pose Estimation for HRI Emotion Detection

PDF

David C. Jeong, Tianma Shen, Hongji Liu, Raghav Kapoor, Casey Nguyen...

TL;DR本研究通过使用 MoEmo（Motion to Emotion），一种基于 3D 人体姿势估计的交叉注意力视觉变换器（ViT），以及基于人类姿势和环境背景的人体运动全身视频和相应情感标签的数据集，有效地利用人类姿势 / 姿态的运动向量和环境背景的特征图之间的微妙连接，实现了机器人系统中的情感检测，优于目前的最先进方法。

Abstract

emotion detection presents challenges to intelligent human-robot interaction (HRI). Foundational deep learning techniques used in

emotion detection human-robot interaction deep learning cross-attention vision transformer moemo

发现论文，激发创造

使用运动块探索 Vision Transformers 用于 3D 人体动作语言模型

构建 3D 人体动作与语言之间的跨模态潜空间对于获取大规模高质量的人体动作数据至关重要，然而，与图像数据的丰富相比，动作数据的稀缺限制了现有动作语言模型的性能，为了解决这个问题，我们介绍了 “动作补丁” 的新表示方法，并通过迁移学习，提出使用视觉变换器（ViT）作为动作编码器，旨在从图像域中提取有用的知识并应用于动作域，我们发现通过使用训练 2D 图像数据获得的 ViT 的预训练权重进行迁移学习可以提高动作分析的性能，为解决有限动作数据的问题提供了一个有希望的方向，我们广泛的实验证明了所提出的动作补丁与 ViT 的联合使用在文本到动作检索以及其他新颖的具有挑战性的任务中取得了最先进的性能，例如跨骨架识别、零样本动作分类和人体交互识别，这些任务目前由于数据缺乏而受到限制。

May, 2024

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

HOIMotion 利用过去的人体姿势和视角 3D 物体边界框信息进行人体运动预测，通过编码器 - 残差图卷积网络和多层感知器从姿势和物体特征中提取特征，将姿势和物体特征融合成新颖的姿势 - 物体图，并使用残差解码器图卷积网络预测未来的人体运动。我们在 Aria 数字孪生（ADT）和 MoGaze 数据集上广泛评估了我们的方法，并显示 HOIMotion 在关节位置误差平均值方面相较于最先进的方法取得了高达 8.7％（ADT）和 7.2％（MoGaze）的显著改进。为了补充这些评估结果，我们报告了一项人类研究（N=20），表明我们的方法的改进使预测的姿势被认为比现有方法更精确和更逼真。综上所述，这些结果揭示了视角 3D 物体边界框对人体运动预测的重要信息内容以及我们的方法在利用该信息方面的有效性。

Jul, 2024

通过跨模态流形对齐从单眼视频学习人类动作

该论文介绍了通过视频和 2D 关键点之间的跨模态潜在特征空间对三维人体运动和 2D 输入之间进行运动先验对齐的 Video-to-Motion Generator (VTM)，该方法通过将运动数据分别建模为上半身和下半身，以及使用尺度不变的虚拟骨架与运动数据对齐，展示了在重建单目视频中的三维人体运动方面具有领先水平的表现，尤其是在未见过的视角和野外视频中的泛化能力。

Apr, 2024

HMD-NeMo：基于稀疏观测的在线 3D 头盔角色动作生成

在本文中，我们提出了一种名为 HMD-NeMo 的轻量级神经网络，可以在线实时地预测全身动作，解决了只能部分可见手部情况下的全身动作生成问题，并在 AMASS 数据集上达到了新的最先进水平。

Aug, 2023

HuMoR: 坚韧姿态估计的 3D 人体运动模型

引入了 HuMoR：一种用于鲁棒估计时间姿态和形状的 3D 人体运动模型。该模型是一个表达能力强的条件变分自编码器生成模型，学习了运动序列每一步姿态变化的分布。通过灵活的优化方法，可以利用 HuMoR 运动先验知识从模糊的观察中鲁棒地估计出合理的姿态和形状。经过广泛的评估，证明我们的模型在大量运动捕捉数据集上训练后，可以推广到多样化的动作和身体形状，并且可以从多种输入模态（包括 3D 关键点和 RGB (-D) 视频）重建运动。

May, 2021

Human MotionFormer：基于视觉 Transformer 的人类动作转移

本论文提出了一种基于全球和本地感知的分层的 ViT 框架 Human MotionFormer，旨在提高人类运动转移中的特征匹配和运动品质，该方法通过多个块的特征匹配和运动传递，实现了全局特征匹配，进一步引入了卷积层来改善局部感知，实现了平移和生成分支之间的协同监督来训练更好的运动表示，取得了最先进的效果。

Feb, 2023

人体运动预测的多层动作注意力

介绍了一种基于注意力机制的前馈神经网络，利用运动的重复性和历史上下文进行运动预测，通过图卷积网络对历史数据的运动模式进行有效利用，取得了三个数据集上最先进的结果。

Jun, 2021

探索应用于紧急呼叫中心语料库的多模态情感识别的注意力机制

本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略，研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时，实验也表明在 CEMO 上，音频编码包含的情感信息比文本更为丰富。

Jun, 2023

使用掩码学习的 Transformer 情感识别

通过使用 Vision Transformer 和 Transformer 模型，该研究关注情感的 Valence-Arousal 估计、各种面部表情的识别和基础肌肉运动的动作元的检测，提出了一种基于 Transformer 的新框架来最大化对时间和空间特征的理解，并引入了基于随机帧遮罩的学习技术以及针对不平衡数据的 Focal 损失的应用，增强了情绪和行为分析在实际场景中的准确性和适用性，预计对情感计算和深度学习方法的发展有所助益。

Mar, 2024

基于文本的人体运动生成与多视角关注机制

基于文本描述生成的 3D 人体动作一直以来都是一个研究焦点，本文提出了使用多角度注意机制的两阶段方法，即基于人体局部和整体的运动注意以及运动和文本跨模态的全局局部注意机制，通过生成变压器实现文本驱动的运动生成，在 HumanML3D 和 KIT-ML 上的实验证明了我们方法在定性和定量评估方面优于现有的技术，并实现了精细合成和动作生成。

Sep, 2023