Sep, 2022

OmDet: 大规模视觉语言多数据集预训练的语言感知目标检测

TL;DR本文提出一种基于多模态预训练的语言条件检测框架,能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”,解决多数据集训练中的技术难题,并成功应用于超过 35 个目标检测任务,取得最新成果。