Sep, 2023

统一对比融合变压器用于多模态人类动作识别

TL;DR提出了一种新的多模态融合架构 UCFFormer,它能够整合具有不同分布的数据以增强人类动作识别 (HAR) 的性能;通过使用统一 Transformer 来捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入了分解的时间 - 模态注意力来高效执行自注意力,在各种模态之间减少特征分布上的差异,从而生成在语义上对齐的特征进行信息融合;在 UTD-MHAD 和 NTU RGB+D 两个流行数据集上进行的性能评估表明,UCFFormer 通过显著的优势超越竞争方法,实现了最先进的性能。