视觉语言模型能否准确看到图像细节?
本研究介绍了一个名为VLUE的视觉语言理解评估基准,可用于评估VLP模型的泛化能力和效率-性能权衡。该基准显示了所有VLP模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量VLP模型的效率-性能权衡可为设计选择提供有益见解。
May, 2022
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
DeepSeek-VL是一个开源的视觉-语言模型,设计用于实际的视觉和语言理解应用,通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。
Mar, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
May, 2024
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源VLMs在单图像任务中接近GPT-4V的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的GPT-4V模型在我们的基准测试中也存在困难,强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。
Jun, 2024
本研究针对视觉语言模型(VLM)在扩大规模时的性能表现进行探讨。论文指出,仅仅增大编码器的规模并不一定能提升VLM的性能,同时分析了大型语言模型(LLM)的参数规模和数据质量对预训练结果的影响。这些发现对理解VLMs与LLMs之间的规模法则差异具有重要意义。
Aug, 2024
本研究旨在揭示当前最先进视觉语言模型(VLMs)在基本视觉任务上的局限性,如物体分类、空间排列理解和物体实例划分。通过构建一系列测试,比较常规性能与特征直接训练的探测器性能,本研究发现了VLMs反应中的新缺陷,提出了改进未来VLM模型的重要见解。
Aug, 2024
本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型(CVR-LLM),通过迭代自我精炼循环生成详细的上下文感知描述,并利用大型语言模型的文本知识进行准确预测,显著提升了推理能力。研究结果表明,CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能,具有重要的应用潜力。
Sep, 2024