从网络数据中学习视觉 N-Grams

Dec, 2016

Learning Visual N-Grams from Web Data

Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten

TL;DR本文探讨利用网络数据进行图像识别系统的训练，采用了直观 n-grams 模型来预测图片内容相关短语，同时开发出适用于连接图像和标题、零样本传输等方面的模型。

Abstract

Real-world image recognition systems need to recognize tens of thousands of classes that constitute a plethora of visual concepts. The traditional approach of annotating thousands of images per class for training is infeasible in such a scenario, prompting the use of →

image recognition webly supervised data visual n-gram models phrase prediction zero-shot transfer

发现论文，激发创造

从互联网提取视觉知识：理解图像数据

本研究针对视觉识别技术中的特征表示、学习算法和标记的训练数据进行了探究，提出了一种基于网络监督的自动图像数据生成方法，以实现对大量视觉概念的高效训练和识别。在 Pascal VOC 2007 数据集上对该方法进行了测试，并取得了明显的优越性能。

Jun, 2019

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

WebVision 数据库：从网络数据中进行视觉学习和理解

本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库，其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像，并收集了元信息（例如标题，描述，标签等）。通过这个数据库，我们发现网络图像可以用于训练良好的深度 CNN 模型，且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外，我们也发现了一个数据集偏见问题，即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。

Aug, 2017

为视觉和语言模型命名类别的学习

使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数，以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明，该解决方案可以轻松集成在图像分类和物体检测管道中，在多种情况下产生显著的性能增益，并提供模型偏差和标注误差的见解。

Apr, 2023

卷积网络的网络监督学习

本文提出了一种使用大量网络数据来学习 CNN 的方法。具体地，我们利用了课程学习的思想，提出了一种 CNN 训练的两步方法，表现优异且鲁棒性强。我们使用这种方法在 VOC 2007 上实现了最佳性能，并在其中演示了网络监督学习的强大功能。

May, 2015

CurriculumNet: 大规模网络图像弱监督学习

该论文提出了一种基于课程学习的弱监督学习方法，通过对大规模网络图像数据进行无人工标注的深度神经网络训练，实现对大量噪声数据和数据分布不均等问题的有效处理和噪声标签的负面影响的显著降低，构建一种新的课程学习架构，使得使用高噪声标签的图像作为一种正则化策略可以惊人地提高模型的泛化能力，在 WebVision、ImageNet、Clothing-1M 和 Food-101 等四个基准测试中取得了最先进的性能，多模型集成的结果在 1000 种类别分类中取得了 5.2% 的 top-5 错误率，相对误差率超过 50%。

Aug, 2018

群体参与：一种弱监督深度学习框架用于从 Web 数据中学习

本文介绍了一种鲁棒性强的、端到端的深度弱监督学习框架，该框架通过随机分组和注意力机制来有效减少 Web 图片注释的负面影响，实现了对嘈杂标签的有效抑制和准确图像标注，实验证明了该方法的卓越性能。

Nov, 2016

从大规模的弱监督数据中学习视觉特征

本文探讨了在大型弱标记图像集上训练卷积网络以提升视觉特征表达的潜力，并证明了在 1 亿张 Flickr 图片与样本说明上训练出来的特征在多种视觉问题中表现良好，还能够妥善地捕捉单词之间的相似性，并学习不同语言之间的对应关系。

Nov, 2015

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016