VisionGPT:通用多模态框架基于视觉 - 语言理解 Agent
文本向视觉组成件的演变有助于人们的日常生活,计算机视觉模型包括多模态能力,最近的研究关注于基于明确对象的图片检测和分类,然而与问题不匹配的算法可能导致不良结果,为了应对这个挑战,我们提出了统一的 VisionGPT-3D 框架来巩固最先进的视觉模型并促进面向视觉的人工智能的发展。
Mar, 2024
UnifiedVisionGPT 是一个新框架,通过整合 SOTA 视觉模型来加速计算机视觉领域的发展,提供多功能的多模态平台,自动化模型选择,并通过提高效率、通用性、综合能力和性能来改变计算机视觉领域。
Nov, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
利用 MiniGPT-v2 建立一个统一的界面,有效地处理各种视觉 - 语言任务,包括图像描述、视觉问答和视觉定位等,并通过使用唯一标识符提高模型在每个任务中的学习效率。
Oct, 2023
本文研究了大型多模态模型 (LMMs),特别是 GPT-4V (ision) 和 Gemini 的最新进展,扩展了多模态模型的能力边界,超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT,一种利用 LMMs 的通用网络代理,可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估,我们展示了 GPT-4V 在网络代理中的巨大潜力,如果我们将其文本计划手动转化为网站上的动作,它可以成功完成 50% 的任务,这大大优于仅针对网络代理进行优化的纯文本 LLMs,如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而,转化仍然是一个主要的挑战,现有的 LMM 转化策略,如集合标记提示,并不适用于网络代理,而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而,与理想转化仍然存在相当大的差距,这给进一步改进留下了充分的空间。
Jan, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线,以促进机器人操纵。该系统分析人类执行任务的视频,并创建包含可支配见解的可执行机器人程序。实验表明,该方法在实现从人类示范中的真实机器人操作方面具有显著效果。
Nov, 2023
通过研究 GPT-4V (ison),我们发现多模态模型在推荐任务中的潜力,并证明了 GPT-4V 具有出色的零 - shot 推荐能力,同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型,以提供更多样性和互动性,从而增强用户体验。
Nov, 2023
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023