上下文化本地视觉嵌入的自监督学习

ICCVOct, 2023

上下文化本地视觉嵌入的自监督学习

Self-supervised Learning of Contextualized Local Visual Embeddings

Thalles Santos Silva, Helio Pedrini, Adín Ramírez Rivera

TL;DR我们提出了 Contextualized Local Visual Embeddings（CLoVE），一种用于密集预测任务的自监督卷积方法，它学习适用于密集预测任务的表示。CLoVE 通过优化单一损失函数来学习从卷积神经网络（CNN）编码器的输出特征图中学习的上下文化局部嵌入，与当前方法不同。为了学习上下文化嵌入，CLoVE 提出了一个标准化的多头自注意力层，该层根据相似性结合来自图像不同部分的局部特征。我们在多个数据集上对 CLoVE 的预训练表示进行了广泛的基准测试。在 4 个密集预测下游任务，包括目标检测、实例分割、关键点检测和密集姿态估计中，CLoVE 达到了基于 CNN 的架构的最先进性能。

Abstract

We present contextualized local visual embeddings (CLoVE), a self-supervised convolutional-based method that learns representations suited for dense prediction tasks. CLoVE deviates from current methods and optim

contextualized local visual embeddings self-supervised dense prediction tasks mult-head self-attention layer cnn-based architectures

发现论文，激发创造

无监督视觉表示学习：基于上下文预测

该研究探讨了利用空间上下文作为丰富的视觉表征的监督信号的方法。通过从每个图像中提取随机配对的路径来训练卷积神经网络，用于预测第二个路径相对于第一个路径的位置，从而实现对目标的识别，并证明该方法在性能上优于其他算法。

May, 2015

基于 Transformer 的剪裁对比量化学习用于无监督图像检索

提出了 TransClippedCLR 模型，通过编码图像的全局上下文和局部上下文，使用产品量化生成哈希码，并通过剪切对比学习避免潜在的错误负对，实现了在基准数据集（包括 CIFAR10、NUS-Wide 和 Flickr25K）上无监督图像检索的卓越性能，相较于最新的深度模型，在所有数据集上使用所提出的剪切对比学习相比于使用相同基础网络的普通对比学习，取得了显著的改善。

Jan, 2024

DenseCap: 全卷积定位网络用于密集字幕

该研究介绍了密集报告任务，提出了一种全卷积定位网络（FCLN）架构来联合处理图像的局部定位和描述，在视觉基因组数据集上进行了评估，证明相比现有技术的基线，其速度和准确性都有所提高。

Nov, 2015

异质网络中基于上下文嵌入的自监督学习用于链接预测

本文提出了一种使用全局信息进行固定表示学习并使用局部注意力机制学习上下文节点表示的框架 SLiCE 解决了节点的应用背景信息不足的问题，不用预定义的 metapaths 就能自动学习特定任务的上下文信息，与现有的静态和上下文嵌入方法相比，在多个公开基准网络数据集上显着优于其他方法，并解释了语义关联矩阵在成功预测异构节点之间链接方面的效用和相关性。

Jul, 2020

基于语义感知的注意力神经嵌入在基于图像的视觉定位中的应用

提出了一种新的，综合了外观和语义信息的 2D VL 定位方法，该方法使用多模态线索生成稳健的嵌入向量，其中利用了场景的语义布局的不变性，并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程，在三个具有挑战性的本地化数据集上测试，平均绝对提高了 19％，并且通过对模型各个组件进行广泛研究，证明了语义信息和注意模块的贡献。

Dec, 2018

通过保持局部性的变分判别网络学习强大的聚类表示

本文提出了一种改进的联合学习框架，包括强鲁棒性嵌入判别器和局部结构约束，来改善 VaDE 聚类方法的两个问题。实验结果表明，我们的方法在各种基准数据集上表现优于现有模型，并且对抗输入具有极强的稳健性，可实际应用于实践。

Dec, 2020

自监督视觉预训练的密集对比学习

本文介绍了一种基于像素的密集自监督学习方法，通过考虑局部特征之间的对应关系，实现了对密集预测任务的有效优化，包括物体检测，语义分割和实例分割。与基线方法 MoCo-v2 相比，该方法仅引入了微不足道的计算开销，但表现出了更好的性能。

Nov, 2020

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

通过预测视觉单词包学习表征

本文提出了一种基于视觉词汇的自监督学习方法，通过将图像特征映射量化为视觉词汇，实现了对图像的分离表示，通过 Bag-of-Words 表示学习有用的下游图像理解特征，与类似自然语言领域的方法相比，该方法在目标检测和分类上表现出更好的迁移能力。

Feb, 2020

密集预测任务的多级对比学习

本文介绍了一种名为 Multi-Level Contrastive Learning for Dense Prediction Task (MCL) 的自监督学习方法，该方法通过实现一种装配多尺度图像的贡献任务，显式地编码绝对位置和比例信息，从而使神经网络能够学习区域语义表示。实验表明，MCL 在各种数据集上始终优于最新的现有方法。

Apr, 2023