Jan, 2025
ECBench:多模态基础模型能否理解自我中心世界?一种整体的具身认知基准
ECBench: Can Multi-modal Foundation Models Understand the Egocentric
World? A Holistic Embodied Cognition Benchmark
TL;DR本研究针对现有以视频为基础的具身视频问答数据集缺乏系统性评估框架的问题,提出了ECBench,这是一个高质量的基准,旨在系统性评估大型视觉语言模型(LVLMs)的具身认知能力。ECBench通过多样的场景视频来源和开放的问答格式,推动了LVLMs的具身认知能力的提升,为具身代理的可靠核心模型开发奠定了坚实基础。