Jun, 2024

任务问我

TL;DRTask-Me-Anything是一个针对大型多模式语言模型(MLMs)的基准生成引擎,它可以根据用户需求生成定制化的基准,并通过在计算预算内高效地算法地解决用户对MLM性能的查询。它包含113K图像、10K视频、2K 3D物体资源、365多个物体类别、655个属性和335个关系,可以生成750M图像/视频问答对,重点评估MLM的感知能力。研究发现:开源的MLMs在物体和属性识别方面表现出色,但在空间和时间理解方面还存在不足;每个模型都具有独特的优势和劣势;较大的模型通常表现更好,尽管也有例外;GPT4o在识别旋转/移动物体和区分颜色方面存在挑战。