从网络数据中学习视觉 N-Grams
本研究针对视觉识别技术中的特征表示、学习算法和标记的训练数据进行了探究,提出了一种基于网络监督的自动图像数据生成方法,以实现对大量视觉概念的高效训练和识别。在 Pascal VOC 2007 数据集上对该方法进行了测试,并取得了明显的优越性能。
Jun, 2019
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库,其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像,并收集了元信息(例如标题,描述,标签等)。通过这个数据库,我们发现网络图像可以用于训练良好的深度 CNN 模型,且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外,我们也发现了一个数据集偏见问题,即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。
Aug, 2017
使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数,以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明,该解决方案可以轻松集成在图像分类和物体检测管道中,在多种情况下产生显著的性能增益,并提供模型偏差和标注误差的见解。
Apr, 2023
本文提出了一种使用大量网络数据来学习 CNN 的方法。具体地,我们利用了课程学习的思想,提出了一种 CNN 训练的两步方法,表现优异且鲁棒性强。我们使用这种方法在 VOC 2007 上实现了最佳性能,并在其中演示了网络监督学习的强大功能。
May, 2015
该论文提出了一种基于课程学习的弱监督学习方法,通过对大规模网络图像数据进行无人工标注的深度神经网络训练,实现对大量噪声数据和数据分布不均等问题的有效处理和噪声标签的负面影响的显著降低,构建一种新的课程学习架构,使得使用高噪声标签的图像作为一种正则化策略可以惊人地提高模型的泛化能力,在 WebVision、ImageNet、Clothing-1M 和 Food-101 等四个基准测试中取得了最先进的性能,多模型集成的结果在 1000 种类别分类中取得了 5.2% 的 top-5 错误率,相对误差率超过 50%。
Aug, 2018
本文介绍了一种鲁棒性强的、端到端的深度弱监督学习框架,该框架通过随机分组和注意力机制来有效减少 Web 图片注释的负面影响,实现了对嘈杂标签的有效抑制和准确图像标注,实验证明了该方法的卓越性能。
Nov, 2016
本文探讨了在大型弱标记图像集上训练卷积网络以提升视觉特征表达的潜力,并证明了在 1 亿张 Flickr 图片与样本说明上训练出来的特征在多种视觉问题中表现良好,还能够妥善地捕捉单词之间的相似性,并学习不同语言之间的对应关系。
Nov, 2015
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016