Jun, 2023

MOFI:从带噪实体注释的图像中学习图像表示

TL;DRMOFI 是一种新的视觉基础模型,通过预先训练和训练技巧,基于通过噪声文本标注的图像表示,提供了 Image-to-Entities(I2E)数据库,其中包括 10 亿个图像和 200 万个不同实体,并达到了 86.66%的平均精度,在大型 Fine-grained 实体标签的受监督预训练中的模型效果尤为明显。