Sep, 2024

自我运动的多模态语言模型 EgoLM

TL;DR本研究针对可穿戴设备普及后的自我运动学习问题,提出了EgoLM框架,通过多模态输入(如自我中心视频和运动传感器)追踪和理解自我运动。关键创新在于利用大型语言模型来建模自我运动与自然语言的联合分布,从而有效提升了运动追踪和理解的性能。实验结果表明,EgoLM在多模态人类运动数据集上的表现证明其作为通用自我中心学习模型的有效性。