探索大型多模型模型对于密集文本的能力

May, 2024

探索大型多模型模型对于密集文本的能力

Exploring the Capabilities of Large Multimodal Models on Dense Text

Shuo Zhang, Biao Yang, Zhang Li, Zhiyin Ma, Yuliang Liu...

TL;DR本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

Abstract

While large multi-modal models (LMM) have shown notable progress in multi-modal tasks, their capabilities in tasks involving dense textual content remains to be fully explored. dense text, which carries important

large multi-modal models dense text dt-vqa dataset gpt4v prompt engineering

发现论文，激发创造

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

大型多模型模型能否揭示图像背后的深层语义？

通过 DEEPEVAL 评估，本研究发现现有的大型多模态模型对深度语义的理解能力与人类存在明显差距，尽管在图像描述方面达到了与人类相媲美的性能。进一步分析表明，推理过程中结合描述文本可以显著增强大型多模态模型对深度语义的感知能力。

Feb, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

从 GPT-4 到 Gemini 和更远：通过四种方式评估 MLLMs 的一般化能力、可靠性和因果关系

通过对专有和开源多模态大语言模型的定性研究，本文旨在增强对最近的 MLLM 在一般化、可信度和因果推理能力方面与广大公众期望之间差距的理解，主要关注文本、代码、图像和视频四个模态，最终目标是提高 MLLM 透明度，发现 14 个实证性发现以深入了解专有和开源 MLLM 的能力和限制，以实现更可靠的多模态下游应用。

Jan, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

如何训练一款基于多模态输入的 GPT4 风格语言模型？

探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响，并且创建了一个既包括图像任务又包括视频任务的全面评估集，最终呈现了 Lynx，该模型在保持最佳多模生成能力的同时，表现出最准确的多模态理解能力。

Jul, 2023

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

基于 LMM 的知识在图像分类任务中的利用

使用 Large Multimodal Models 中的 MiniGPT-4 模型，结合图像编码器和文本编码器提取语义描述，以提高图像分类任务的性能。

Jun, 2024