Oct, 2022

IMU2CLIP: 从自我视角视频和文本中学习 IMU 运动传感器的多模态对比学习

TL;DRIMU2CLIP 是一种新型的预训练方法,用于将惯性测量单元(IMU)运动传感器记录与视频和文本对齐,从而在对比度语言 - 图像预训练 (CLIP) 的联合表示空间中将其投影,该方法允许 IMU2CLIP 将人体动作转化为相应的文本描述和视频,并保持这些模态之间的传递性,用于多种应用,包括基于动作的媒体检索和自然语言推理任务以及活动识别等,并展示了 IMU2CLIP 在每种应用的定制预训练可大大提高下游性能,彰显了其作为预训练资源的通用用途。