Dec, 2023

通过提示实现任意分词

TL;DR我们提出了一个统一的、可提示的模型,能够同时分割、识别和描述任何物体。与 SAM 不同的是,我们通过视觉提示在野外构建多用途区域表示。我们使用来自具有 50 亿参数的经过预训练的 CLIP 模型的大规模分割掩码,例如 SA-1B 掩码,和语义先验训练一个可泛化的模型。通过将语义令牌添加到每个掩码令牌中,我们构建了一个可提示的图像解码器,语义令牌负责在预定义的概念空间中学习语义先验。通过在掩码令牌上进行分割和在语义令牌上进行概念预测的联合优化,我们的模型展现了强大的区域识别和定位能力。通过从头开始训练一个 3800 万参数的因果文本解码器,我们在 Visual Genome 区域描述任务上取得了 CIDEr 得分 150.7 的新记录。我们认为这个模型可以作为一个多功能区域级图像分词器,能够为广泛的感知任务编码通用区域上下文。