MultiZoo 和 MultiBench:多模态深度学习的标准化工具包
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明,不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化,复杂性和健壮性的问题,对于未来研究具有重要的挑战性,包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。
Jul, 2021
提出了一种新的多模式基准测试方法 MMBench,通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估,旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。
Jul, 2023
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
MuirBench 是一个全面的基准测试,侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务(如场景理解,排序)组成,涉及 10 个多图像关系类别(如多视图关系,时间关系)。通过评估 20 种最新的多模态 LLMs,结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战,准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题,准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性,鼓励社区开发能够超越单个图像的多模态 LLMs,并提出未来改进的潜在途径。
Jun, 2024
本文介绍了一种名为 MultiViz 的方法,通过四个阶段的解构和分析实现了对多模态机器学习模型的内部机制进行可视化和理解,帮助用户进行模型预测仿真、特征的可解释性赋值、误差分析以及漏洞检测等任务。
Jun, 2022
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。
Apr, 2023
通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
该研究提出了一个多模态(视觉和语言)基准,用于合作和异构多智能体学习。研究介绍了一个基准多模态数据集和一致的评估协议,并探讨了不同模态对多智能体学习性能的影响,同时也介绍了智能体之间的简单信息传递方法。结果表明,在这种设置下,多模态引入了合作多智能体学习的独特挑战,并且在提高多智能体强化学习方法方面还有很大的改进空间。
Aug, 2022