Florence-2: 推动视觉任务的统一表示

Nov, 2023

Florence-2: 推动视觉任务的统一表示

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu...

TL;DR我们引入了 Florence-2，这是一个具有统一的基于提示的表示的新型视觉基础模型，用于各种计算机视觉和视觉语言任务。Florence-2 的一项重要功能是将文本提示作为任务指令，并生成期望的文本形式的结果，如字幕生成、目标检测、定位或分割。我们通过自动图像注释和模型改进的迭代策略，共同开发了包含 54 亿个综合视觉注释的 FLD-5B，它基于 1.26 亿张图像，提供了大规模、高质量的标注数据。我们采用序列到序列结构来训练 Florence-2 执行多功能和全面的视觉任务。对众多任务的广泛评估表明，Florence-2 是一个强大的视觉基础模型候选者，具有前所未有的零样本和微调能力。

Abstract

We introduce florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and

florence-2 vision foundation model computer vision task instructions fld-5b

发现论文，激发创造

Florence: 计算机视觉领域的新基础模型

该研究介绍了一种名为 Florence 的计算机视觉基础模型，采用 Web 规模的图像文本数据包含通用视觉语言表示，可轻松用于各种计算机视觉任务，如分类、检索、物体检测、图像字幕、视频检索和动作识别，达到了许多转移学习方面的最新成果。

Nov, 2021

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

视觉任务的统一序列接口

本文提出一种基于共享像素到序列接口的框架，将计算机视觉中的四种不同任务（对象检测、实例分割、关键点检测和图像字幕）的输出形式都改为序列输出，并且可以通过短提示来实现任务特定的输出，证明可以用单个模型架构和损失函数在这些任务上进行训练，达到与传统模型相似的性能表现。

Jun, 2022

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Oct, 2022

FLAVA：一种基础语言和视觉对齐模型

本篇研究提出了一种名为 FLAVA 的综合视觉与语言基础模型，通过使用单一的综合的通用模型，同时针对视觉和语言任务以及跨模态任务，展现出出色的性能表现。

Dec, 2021

统一输入输出：视觉、语言和多模态任务的统一模型

Unified-IO 是一种模型，它可以执行各种人工智能任务，包括传统的计算机视觉任务、视觉与语言任务和自然语言处理任务，通过将每个任务的异构输入和输出转换为离散词汇令其有共同的表示方式，从而实现使用一个单一的基于 transformer 的架构，针对视觉和语言领域的 90 多个不同数据集联合训练，其能够在诸如 NYUv2-Depth、ImageNet、VQA2.0 等 16 个不同基准测试中产生强大的结果，这是第一个不需要针对特定任务进行微调即可执行所有 7 个 GRIT 基准任务的模型。

Jun, 2022

Kosmos-2.5: 一个多模态的才华模型

Kosmos-2.5 是一个多模式文本密集图像的机器阅读模型，能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出，通过 Transformer，任务特定的提示和灵活的文本表示来实现统一的多模式文本功能，可以适应不同提示的文本密集图像任务。

Sep, 2023

FAME-ViL：用于异构时尚任务的多任务视觉语言模型

本文提出了一种针对时尚多种异构任务的多任务高效学习方法 ——FAME-ViL，该方法通过引入跨注意力适配器和任务特定适配器到统一的 V+L 模型中，加上稳定而有效的多任务训练策略，能够显著地提高参数效率和任务性能。

Mar, 2023