Q-Instruct: 提升多模态基础模型的低层视觉能力

Nov, 2023

Q-Instruct: 提升多模态基础模型的低层视觉能力

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao...

TL;DR基于 GPT-4V 的多模态基础模型，在低级视觉感知和理解任务方面带来了新的范式，可以对多种自然人类指令做出响应。通过大规模的主观实验收集了大量关于低级视觉的真实人类反馈，建立了包含 58K 个详细反馈的 Q-Pathway 数据集，实验结果表明，Q-Instruct 能够提升多个基础模型在低级感知和理解能力方面的表现，我们的数据集和模型展示可在所发布的网址获取。

Abstract

multi-modality foundation models, as represented by GPT-4V, have brought a new paradigm for low-level visual perception and understanding tasks, that can respond to a broad range of natural human instructions in

multi-modality foundation models low-level visual perception human feedbacks q-pathway dataset gpt-participated conversion

发现论文，激发创造

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

Q-Boost: 低层多模态基础模型的视觉质量评估能力研究

通过引入中性提示和多提示集成两个关键的组成部分，Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力，并展示了优秀的零样本性能。

Dec, 2023

看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。

Nov, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

评估零射击 GPT-4V 在 3D 视觉问答基准测试上的表现

我们在 3D VQA 基准测试中评估了 GPT-4 Vision 和 GPT-4 等基础模型的零样本性能，发现没有任何微调的 GPT-based agents 在封闭词汇环境中表现与传统建模方法相当，我们还通过与以前的基准测试进行初步比较，希望为改进多模态 3D 基准测试的努力提供信息。

May, 2024

实现教育的视觉问答：GPT-4V 作为一种多模态人工智能

这篇论文介绍了 Visual Question Answering（VQA）技术在教育研究中的应用，特别是 GPT-4V 在促进 VQA 技术的普及和提高教育研究方法方面的作用。

May, 2024

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023