Aug, 2017

WebVision 数据库:从网络数据中进行视觉学习和理解

TL;DR本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库,其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像,并收集了元信息(例如标题,描述,标签等)。通过这个数据库,我们发现网络图像可以用于训练良好的深度 CNN 模型,且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外,我们也发现了一个数据集偏见问题,即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。