多模态大语言模型的可视化能力:一项比较研究
通过使用全面的评估框架MM-BigBench,本文综合评估了20个语言模型(包括14个多模态大型语言模型)在14个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源GPT-4V能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
Mar, 2024
我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前MLLMs在文本丰富视觉理解方面的限制。
Apr, 2024
本综述以数据为中心的视角全面回顾多模态大型语言模型的文献,探索了在多模态数据准备、预训练和适应阶段的方法,分析了数据集的评估方法和评估多模态大型语言模型的基准。此外,本综述还概述了未来的研究方向,以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解,推动该领域的进一步探索和创新。
May, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024
本研究解决了多模态大型语言模型(MLLMs)在数据质量上的瓶颈问题。我们提出的MMEvol框架通过细致的感知、认知推理和交互进化,迭代提升指令数据的质量,从而生成更复杂和多样化的图像-文本指令数据集。研究表明,相比于初始种子数据训练的基准模型,我们的方法在13个视觉-语言任务上实现了平均3.1个百分点的准确率提升,并在九个任务上达到了最先进的表现。
Sep, 2024
本研究解决了现有多模态大型语言模型(MLLMs)在理解复杂人类中心场景时的局限性。通过引入HERM-Bench基准和包含多层人类中心注释的HERM-100K数据集,显著提升了MLLMs的训练效果。研究表明,基于HERM-100K训练的HERM-7B模型在各个人类中心维度上超越了现有的MLLMs,强调了专门数据集和基准的重要性。
Oct, 2024