Oct, 2024

VidEgoThink:评估具身智能的自我中心视频理解能力

TL;DR本研究解决了多模态大型语言模型(MLLMs)在自我中心视频理解中的应用不足问题。通过设计视频问答、层次规划、视觉基础和奖励建模等四个相关任务,提出了一种自动数据生成流程,创建了VidEgoThink基准。实验结果表明,目前的基础模型在自我中心视频理解任务中表现不佳,强调了在具身智能领域进一步发展的必要性。