MultiZoo 和 MultiBench：多模态深度学习的标准化工具包

Jun, 2023

MultiZoo 和 MultiBench：多模态深度学习的标准化工具包

MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning

Paul Pu Liang, Yiwei Lyu, Xiang Fan, Arav Agarwal, Yun Cheng...

TL;DRMultiZoo 和 MultiBench 提供了一个自动化的机器学习流水线，能够简化和标准化数据加载、实验设置和模型评估，这些对于研究者们了解多模态模型的能力和局限性是很有帮助的。

Abstract

Learning multimodal representations involves integrating information from multiple heterogeneous sources of data. In order to accelerate progress towards understudied modalities and tasks while ensuring real-world robustness, we release →

multimodal representations multizoo multibench machine learning modality robustness

发现论文，激发创造

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

MuirBench: 强大多图像理解综合基准测试

MuirBench 是一个全面的基准测试，侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务（如场景理解，排序）组成，涉及 10 个多图像关系类别（如多视图关系，时间关系）。通过评估 20 种最新的多模态 LLMs，结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战，准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题，准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性，鼓励社区开发能够超越单个图像的多模态 LLMs，并提出未来改进的潜在途径。

Jun, 2024

MultiViz: 多模型可视化与理解

本文介绍了一种名为 MultiViz 的方法，通过四个阶段的解构和分析实现了对多模态机器学习模型的内部机制进行可视化和理解，帮助用户进行模型预测仿真、特征的可解释性赋值、误差分析以及漏洞检测等任务。

Jun, 2022

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

CH-MARL: 一个用于合作异构多智能体强化学习的多模态基准测试

该研究提出了一个多模态（视觉和语言）基准，用于合作和异构多智能体学习。研究介绍了一个基准多模态数据集和一致的评估协议，并探讨了不同模态对多智能体学习性能的影响，同时也介绍了智能体之间的简单信息传递方法。结果表明，在这种设置下，多模态引入了合作多智能体学习的独特挑战，并且在提高多智能体强化学习方法方面还有很大的改进空间。

Aug, 2022