Aug, 2023

全视计划:朝着全景视觉识别和理解开放世界迈进

TL;DRAll-Seeing(AS)项目是一个大规模数据和模型,用于识别和理解开放世界中的所有内容;使用一个可扩展的数据引擎结合人类反馈和高效模型,在新的AS-1B数据集中标注了超过10亿个语义标签、问答配对和详细说明,覆盖了350万个现实世界中常见和罕见的概念,并提供了1322亿个描述这些概念及其属性的标记;利用该数据集,开发了全视(ASM)模型,一个用于全景视觉识别和理解的统一框架,它可以通过开放式语言提示和位置进行训练,具有非凡的零样本性能,包括区域-文本检索、区域识别、描写和问答;希望该项目能为视觉语言人工智能研究奠定基础,模型和数据集将发布在指定的URL上,演示可在指定的URL上查看。