通过预测视觉单词包学习表征
本文提出了一种基于教师 - 学生模型的在线 BoW 指导下的无监督学习策略,探索了图像的重建方法来学习视觉表示,并在多个任务上实现了前所未有的性能提升。
Dec, 2020
该研究使用无标签数据自我监督学习的方法,使用词袋深度描述符作为学习目标以学习鲁棒、深度特征,该方法可以学习具有扰动不变性和上下文感知的图像特征,适用于几乎无样本的任务或有监督的后续任务,其中将深度特征用于 CIFAR-100 分类任务并未能像原论文中所述显著提高分类准确性。
Jan, 2022
该论文探讨了自我监督方法在无监督视觉表示学习中的重要性,提出之前 CNN 设计的标准配方不一定适用于自我监督表示学习, 并大幅度提高了之前提出技术的性能,超越了之前公布的最先进结果。
Jan, 2019
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
该研究探讨了利用空间上下文作为丰富的视觉表征的监督信号的方法。通过从每个图像中提取随机配对的路径来训练卷积神经网络,用于预测第二个路径相对于第一个路径的位置,从而实现对目标的识别,并证明该方法在性能上优于其他算法。
May, 2015
本文提出了一种从原始视觉分组能力启动视觉表示学习的框架,操作化分组通过轮廓检测器,该检测器将图像分割成区域,并将这些区域合并成树形层次结构。实验表明,我们的方法朝着通用预训练方法的方向发展,其对下游任务有益,并可用于语义区域搜索和基于视频的对象实例跟踪。
Dec, 2020
本文介绍了一种使用大量未标记数据进行无监督学习的方法,通过使用数十万个未标记的 web 视频作为数据集,设计了一个具有排名损失函数的 Siamese-Triplet 网络,用于深度卷积神经网络的无监督学习,可在不使用 ImageNet 的情况下,获得 52% 的 mAP 的性能,并展示了此非监督网络在其它任务中表现出竞争性。
May, 2015
提出了 “自我监督产品量化(SPQ)” 网络,它是一个无需标签、自我监督的深度学习图像检索方法,通过比较转换后的图像(视图)来学习深度视觉描述符和码字,分析图像的内容提取其描述性特征,实现准确的图像检索,实验表明在基准测试中得到了业内领先的结果,即使在没有有监督预训练的情况下。
Sep, 2021
该研究提出了 vq-wav2vec 算法,用于学习音频片段的离散表示,并通过自监督上下文预测任务实现。实验结果表明,BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。
Oct, 2019