Dec, 2023

大规模图像和视频的通用对象基础模型

TL;DR本研究提出了 GLEE,这是一个用于定位和识别图像和视频中对象的对象级基础模型。通过一个统一的框架,GLEE 在各种对象感知任务的开放世界场景中完成了检测、分割、跟踪、定位和识别任意对象的工作。它通过强大的学习策略从多样的数据源获得知识,构建了普适的对象表示,具有出色的零样本迁移和通用性能。此外,GLEE 还可作为大型语言模型的一部分,为多模态任务提供通用的对象级信息。