Feb, 2023

开放领域视觉实体识别:朝着识别数百万维基百科实体迈进

TL;DR本文正式提出了开放域视觉实体识别(OVEN)这一任务,为评估预训练模型的普适性,构建了一个最大标签数量的通用视觉识别基准数据集。该数据集将 14 个现有的数据集标签全部调整为维基百科实体,其中包含了六百万个可能的实体,我们在此基础上测试了一系列领先的预训练模型,并发现不同的模型各有千秋。