通向通用视觉系统

CVPRApr, 2021

Towards General Purpose Vision Systems

Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi, Derek Hoiem

TL;DR本文提出了一种通用视觉语言体系结构 GPV-1，它可以学习和执行涉及接收图像和生成文本和 / 或边界框的任务，包括分类、定位、视觉问答、字幕等多个任务，并通过实验证明 GPV-1 在多个任务上是有效的，可以重新利用跨任务的概念知识，并可以在零样本情况下执行指称表达式任务。

Abstract

computer vision systems today are primarily N-purpose systems, designed and trained for a predefined set of tasks. Adapting such systems to new tasks is challenging and often requires non-trivial modifications to the network →

computer vision general purpose task-agnostic architecture learning efficiency

发现论文，激发创造

通用视觉模型的网络监督概念扩展

本文介绍了一种有效且廉价的方法：利用监督数据集学习技能，利用网络图像搜索学习概念，再利用 GPV 跨技能传递视觉知识，以实现 web-based 的概念扩展；同时，提出了支持各种任务的新架构 GPV-2，在多项基准测试中表现优异。

Feb, 2022

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

VisionGPT：通用多模态框架基于视觉 - 语言理解 Agent

介绍 VisionGPT，通过整合和自动化最先进的基础模型，促进视觉语言理解和视觉导向人工智能的发展，具有高效性、通用性和性能表现的潜力。

Mar, 2024

认知、概念化、推理和行动：通用视觉表征基准测试

提出了一个全面的综合基准，其中包括四个功能领域，即感知、基础、推理和行动，共计 11 个任务，并提供了一个通用编码器 - 解码器框架来评估任意的视觉表示。通过使用该基准，我们发现 Transformer-based 视觉骨干通常优于基于 CNN 的，而具有视觉语言预训练的视觉表示比那些仅有视觉预训练的视觉表示在视觉任务上表现更好。这为促进建立面向通用视觉系统的研究提供了一个全面的评估标准。

Nov, 2022

GiT: 通向通用视觉 Transformer 的普适语言接口

这篇论文提出了一种简单而有效的框架，名为 GiT，它能够同时适用于各种视觉任务，只需一个简单的 ViT 模型。

Mar, 2024

通过隐含组合进行算法归纳的任务无关架构

提出一种理论框架构建统一的深度网络架构，基于 Transformer 模型以及离散学习框架，以解决当前构建通用网络的挑战。

Apr, 2024

统一视觉 GPT：通过通用多模态框架简化面向视觉的人工智能

UnifiedVisionGPT 是一个新框架，通过整合 SOTA 视觉模型来加速计算机视觉领域的发展，提供多功能的多模态平台，自动化模型选择，并通过提高效率、通用性、综合能力和性能来改变计算机视觉领域。

Nov, 2023

计算机视觉中的通用人工智能：从 GPT 和大语言模型中所学

本文提出将计算机视觉算法放入世界范围内的互动环境进行预训练，完成各种任务的想法，以解决计算机视觉在实现人工通用智能方面的困难

Jun, 2023

具有领域特定聚合模块的领域泛化

提出了一种深度结构，通过聚合层策略引入了领域特定的聚合模块，能够在同时利用通用感知信息的情况下保持关于可用源域数据的信息的分离，并在两个不同的基准数据库上进行实验，取得了域泛化的新突破。

Sep, 2018

从概念到制造：评估用于工程设计的视觉语言模型

利用 GPT-4V 模型进行了一项广泛评估，涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务，在分析中发现了该模型在处理复杂设计和制造挑战方面的能力，并确定了其在复杂工程设计应用中的局限性。

Nov, 2023