Nov, 2023

Florence-2: 推动视觉任务的统一表示

TL;DR我们引入了 Florence-2,这是一个具有统一的基于提示的表示的新型视觉基础模型,用于各种计算机视觉和视觉语言任务。Florence-2 的一项重要功能是将文本提示作为任务指令,并生成期望的文本形式的结果,如字幕生成、目标检测、定位或分割。我们通过自动图像注释和模型改进的迭代策略,共同开发了包含 54 亿个综合视觉注释的 FLD-5B,它基于 1.26 亿张图像,提供了大规模、高质量的标注数据。我们采用序列到序列结构来训练 Florence-2 执行多功能和全面的视觉任务。对众多任务的广泛评估表明,Florence-2 是一个强大的视觉基础模型候选者,具有前所未有的零样本和微调能力。