无监督视觉表示学习:基于上下文预测
本文介绍了一种使用大量未标记数据进行无监督学习的方法,通过使用数十万个未标记的 web 视频作为数据集,设计了一个具有排名损失函数的 Siamese-Triplet 网络,用于深度卷积神经网络的无监督学习,可在不使用 ImageNet 的情况下,获得 52% 的 mAP 的性能,并展示了此非监督网络在其它任务中表现出竞争性。
May, 2015
本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过 Bag-of-Words 表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力。
Feb, 2020
本论文提出了一种新颖的无监督特征表示学习方法:Visual Commonsense Region-based Convolutional Neural Network(VC R-CNN),用作改进的视觉区域编码器,适用于高级任务,例如字幕和 VQA。
Feb, 2020
本研究采用了一种基于 patch 排列上下文学习的自监督学习方法,着重解决了光学畸变、空间倾斜和中等特征忽视等问题,在不同数据集上进行多项自监督测试,结果表明,在 PASCAL VOC 2007 的分类和检测、PASCAL VOC 2012 的分割以及 ImageNet 和 CSAIL Places 数据集上的线性测试中都取得了顶尖成绩,在迁移学习分类测试中,超过基准方法的改进幅度为 4.0 到 7.1 个百分点,同时演示了不同标准网络架构的结果,以证明其推广性和灵活性。
Nov, 2017
本文提出了一种自监督的图表征学习策略,需要使用全局上下文进行图表征学习,其中通过训练神经网络预测节点之间相对位置来学习节点表征,以提高节点分类、聚类和链接预测等下游任务的性能。
Mar, 2020
本研究介绍了一种从未标记的视频中进行无监督学习的新方法,通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体,并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。
Dec, 2016
本研究通过对 CNNs 的内部状态进行聚类,提出了一种无监督学习方法来发现物体的语义部件表达,即 Visual Concepts,并证明了其在物体部件检测和语义标注方面的有效性。
Nov, 2015
本文研究了无需人工注释的图像表示学习问题,通过自监督学习的方式,构建了一个卷积神经网络,该网络能够以拼图问题作为预文本任务进行训练,从而无需手动标注,并在后续用于解决目标分类和检测问题;同时引入了一种名为 CFN 的无上下文网络,该网络以图像块作为输入,并将其早期处理单元的感受野(或上下文)明确限制为一次一个图像块,以保持跨任务的兼容性。通过训练 CFN 来解决拼图问题,我们学习了对象部分的特征映射以及它们的正确空间排列,实验评估结果表明,所学习的特征捕获了语义相关的内容;本文提出的学习视觉表示的方法在多个转移学习基准测试中胜过现有的最先进方法。
Mar, 2016
该研究利用图像级别监督,通过引入两种上下文感知的模型来实现目标在图像中的定位,加性模型和对比模型有助于定位目标的位置,在 Pascal VOC2007 和 2012 测试中表现出较好的效果。
Sep, 2016
在通常正常的数据增量中增加特定任务需求的先验知识,在对象检测语境下,通过利用卷积神经网络来预测图像中可以放置物体的区域,同时仅使用有限的数据集,通过弱监督学习得到显著的提高。
Sep, 2018