VisionGPT-3D：增强 3D 视觉理解的综合多模态代理

Mar, 2024

VisionGPT-3D：增强 3D 视觉理解的综合多模态代理

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang...

TL;DR文本向视觉组成件的演变有助于人们的日常生活，计算机视觉模型包括多模态能力，最近的研究关注于基于明确对象的图片检测和分类，然而与问题不匹配的算法可能导致不良结果，为了应对这个挑战，我们提出了统一的 VisionGPT-3D 框架来巩固最先进的视觉模型并促进面向视觉的人工智能的发展。

Abstract

The evolution of text to visual components facilitates people's daily lives, such as generating image, videos from text and identifying the desired elements within the images. computer vision models involving the

text to visual components computer vision models openai gpt-4 visiongpt-3d framework multimodal agent

发现论文，激发创造

统一视觉 GPT：通过通用多模态框架简化面向视觉的人工智能

UnifiedVisionGPT 是一个新框架，通过整合 SOTA 视觉模型来加速计算机视觉领域的发展，提供多功能的多模态平台，自动化模型选择，并通过提高效率、通用性、综合能力和性能来改变计算机视觉领域。

Nov, 2023

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

介绍 VisionGPT，通过整合和自动化最先进的基础模型，促进视觉语言理解和视觉导向人工智能的发展，具有高效性、通用性和性能表现的潜力。

Mar, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展，扩展了多模态模型的能力边界，超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT，一种利用 LMMs 的通用网络代理，可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估，我们展示了 GPT-4V 在网络代理中的巨大潜力，如果我们将其文本计划手动转化为网站上的动作，它可以成功完成 50% 的任务，这大大优于仅针对网络代理进行优化的纯文本 LLMs，如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而，转化仍然是一个主要的挑战，现有的 LMM 转化策略，如集合标记提示，并不适用于网络代理，而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而，与理想转化仍然存在相当大的差距，这给进一步改进留下了充分的空间。

Jan, 2024

ChatGPT 计算机视觉何时到来？从 2D 到 3D

本文探讨了 ChatGPT 和其改进版本 GPT4 已经如何利用单一模型解决了几乎所有文本相关任务，并从模型角度提供了深度学习在文本、图像和 3D 领域的研究进展。同时，文章还从数据角度探讨了 AIGC 的发展，并展望了 AIGC 在 3D 领域的发展。

May, 2023

GPT-4V (ision) 用于机器人：来自人类演示的多模态任务规划

我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线，以促进机器人操纵。该系统分析人类执行任务的视频，并创建包含可支配见解的可执行机器人程序。实验表明，该方法在实现从人类示范中的真实机器人操作方面具有显著效果。

Nov, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023