通向通用视觉系统
本文介绍了一种有效且廉价的方法:利用监督数据集学习技能,利用网络图像搜索学习概念,再利用 GPV 跨技能传递视觉知识,以实现 web-based 的概念扩展;同时,提出了支持各种任务的新架构 GPV-2,在多项基准测试中表现优异。
Feb, 2022
该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021
介绍 VisionGPT,通过整合和自动化最先进的基础模型,促进视觉语言理解和视觉导向人工智能的发展,具有高效性、通用性和性能表现的潜力。
Mar, 2024
提出了一个全面的综合基准,其中包括四个功能领域,即感知、基础、推理和行动,共计 11 个任务,并提供了一个通用编码器 - 解码器框架来评估任意的视觉表示。通过使用该基准,我们发现 Transformer-based 视觉骨干通常优于基于 CNN 的,而具有视觉语言预训练的视觉表示比那些仅有视觉预训练的视觉表示在视觉任务上表现更好。这为促进建立面向通用视觉系统的研究提供了一个全面的评估标准。
Nov, 2022
UnifiedVisionGPT 是一个新框架,通过整合 SOTA 视觉模型来加速计算机视觉领域的发展,提供多功能的多模态平台,自动化模型选择,并通过提高效率、通用性、综合能力和性能来改变计算机视觉领域。
Nov, 2023
本文提出将计算机视觉算法放入世界范围内的互动环境进行预训练,完成各种任务的想法,以解决计算机视觉在实现人工通用智能方面的困难
Jun, 2023
提出了一种深度结构,通过聚合层策略引入了领域特定的聚合模块,能够在同时利用通用感知信息的情况下保持关于可用源域数据的信息的分离,并在两个不同的基准数据库上进行实验,取得了域泛化的新突破。
Sep, 2018
利用 GPT-4V 模型进行了一项广泛评估,涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务,在分析中发现了该模型在处理复杂设计和制造挑战方面的能力,并确定了其在复杂工程设计应用中的局限性。
Nov, 2023