在视觉大模型中,增大编码器是否总是更好?
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了MLLMs的视觉感知能力。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与LLaVA-1.5、DINO和PaddleOCRv2等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在10个基准测试中有9个超过了先进模型,在规范化的平均得分上取得了最高12.99%的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024
通过多尺度较小模型的预训练与冻结,我们展示了其在多个图像尺度上能够超越较大的视觉模型,并证明了通过S$^2$方法进行预训练可以与较大模型具有相当的学习能力。
Mar, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在VLMs设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个8亿参数的高效基础VLM模型
May, 2024
本研究针对现有视觉语言模型(VLMs)在图像细节感知方面的不足,提出了一种新的像素值预测任务(PVP)。通过调整视觉编码器,研究表明在预训练阶段融合像素值预测任务可以显著提升VLMs在图像理解应用中的表现,特别是在图像语义分割和视频游戏决策中的应用效果显著改善。
Aug, 2024
本研究旨在揭示当前最先进视觉语言模型(VLMs)在基本视觉任务上的局限性,如物体分类、空间排列理解和物体实例划分。通过构建一系列测试,比较常规性能与特征直接训练的探测器性能,本研究发现了VLMs反应中的新缺陷,提出了改进未来VLM模型的重要见解。
Aug, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024
本研究针对大型视觉语言模型(LVLMs)在生成非英语解释时的局限性,提出了一种新的多语言扩展数据集,避免了机器翻译带来的文化偏见问题。研究发现,LVLMs在其他语言上的表现优于英语,并且难以有效利用从英语数据中学习的知识,强调了在多语言环境下进一步优化模型的必要性。
Sep, 2024