MiniGPT - 反设计:利用 MiniGPT-4 预测图像调整
本文介绍了 MiniGPT-4 模型,该模型利用像 GPT-4 这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
利用大型视觉 - 语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
Feb, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
本论文提出 IdealGPT 框架,通过大语言模型迭代地分解 VL 推理,以解决零样本推理领域中多步推理问题。我们的 IdealGPT 在多个具有挑战性的 VL 推理任务中表现优异,特别是在 VCR 和 SNLI-VE 中相对最好的 GPT-4 模型提高了 10%和 15%。
May, 2023
利用 MiniGPT-v2 建立一个统一的界面,有效地处理各种视觉 - 语言任务,包括图像描述、视觉问答和视觉定位等,并通过使用唯一标识符提高模型在每个任务中的学习效率。
Oct, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
通过引入 Mini-Gemini 框架,本论文旨在提升多模视觉语言模型(VLMs)的性能,尤其关注高分辨率视觉标记、高质量数据和 VLM 引导生成等方面,进一步挖掘了 VLMs 的潜力,使其能够同时支持图像理解、推理和生成。
Mar, 2024
通过利用 Vision-Language Models(像 GPT-4V)智能地搜索设计动作空间,我们提出了一个系统,以满足用户意图的目标,结合了图像生成模型(image-generation models)的 “想象” 参考图像,为抽象语言描述提供视觉基础。该系统在编辑程序材料和 / 或参考图像,以及在复杂场景中调整产品渲染的照明配置等任务中,能够生成简单但繁琐的 Blender 编辑序列。
Apr, 2024
这篇论文介绍了 MiniGPT4-Video,一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据,从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力,该模型能够处理连续的视频帧序列,使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容,还结合了文本对话,使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法,分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。
Apr, 2024