MiniGPT - 反设计：利用 MiniGPT-4 预测图像调整

Jun, 2024

MiniGPT - 反设计：利用 MiniGPT-4 预测图像调整

MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4

Vahid Azizi, Fatemeh Koochaki

TL;DR通过将视觉 - 语言模型（VLMs）与大型语言模型（LLMs）集成，近期已取得重要进展。本文扩展和优化了 MiniGPT-4 以进行逆向设计任务，并且实验证明了通用的 VLMs（特别是 MiniGPT-4）在复杂任务（如逆向设计）方面的可扩展性。

Abstract

vision-language models (vlms) have recently seen significant advancements through integrating with large language models (→

vision-language models vlms large language models llms reverse designing

发现论文，激发创造

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

分阶段训练方法和生成 vokens 提高大型语言模型在视觉和语言生成方面的效果。

Oct, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

IdealGPT: 通过大型语言模型迭代分解视觉和语言推理

本论文提出 IdealGPT 框架，通过大语言模型迭代地分解 VL 推理，以解决零样本推理领域中多步推理问题。我们的 IdealGPT 在多个具有挑战性的 VL 推理任务中表现优异，特别是在 VCR 和 SNLI-VE 中相对最好的 GPT-4 模型提高了 10％和 15％。

May, 2023

MiniGPT-v2：大型语言模型作为视觉语言多任务学习的统一接口

利用 MiniGPT-v2 建立一个统一的界面，有效地处理各种视觉 - 语言任务，包括图像描述、视觉问答和视觉定位等，并通过使用唯一标识符提高模型在每个任务中的学习效率。

Oct, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

Mini-Gemini: 挖掘多模视觉语言模型的潜力

通过引入 Mini-Gemini 框架，本论文旨在提升多模视觉语言模型（VLMs）的性能，尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面，进一步挖掘了 VLMs 的潜力，使其能够同时支持图像理解、推理和生成。

Mar, 2024

BlenderAlchemy：使用视觉语言模型编辑 3D 图形

通过利用 Vision-Language Models（像 GPT-4V）智能地搜索设计动作空间，我们提出了一个系统，以满足用户意图的目标，结合了图像生成模型（image-generation models）的 “想象” 参考图像，为抽象语言描述提供视觉基础。该系统在编辑程序材料和 / 或参考图像，以及在复杂场景中调整产品渲染的照明配置等任务中，能够生成简单但繁琐的 Blender 编辑序列。

Apr, 2024

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Apr, 2024