Oct, 2024

巴别基准:一种用于多模态和多结构数据的代码驱动分析的通用基准

TL;DR本研究针对大语言模型在处理多模态和多结构数据时缺乏统一评估方法的问题,提出了创新的巴别基准框架。该框架通过包含247个精心策划的问题集,评估模型在理解、推理、规划和调试等方面的综合能力,发现即使是最先进的模型如ChatGPT 4仍有很大的改进空间,为未来研究提供了重要指导。