空间交叉注意力提高自监督视觉表示学习

Jun, 2022

空间交叉注意力提高自监督视觉表示学习

Spatial Cross-Attention Improves Self-Supervised Visual Representation Learning

Mehdi Seyfi, Amin Banitalebi-Dehkordi, Yong Zhang

TL;DR该论文提出一个可添加到 SwAV 等现有方法中的附加模块，可以更好地学习图像语义中的空间交叉相关性和内部类信息，并提高物体检测等下游任务的性能。

Abstract

Unsupervised representation learning methods like swav are proved to be effective in learning visual semantics of a target dataset. The main idea behind these methods is that different views of a same image repre

unsupervised learning representation learning swav spatial cross correlations intra-class information

发现论文，激发创造

通过对比聚类分配实现视觉特征的无监督学习

本文介绍了一种在线聚类算法 SwAV，在不需要计算成对对比的基础上，通过使用一种被称为预测机制的方式来建立视图之间的一致性，并提出了一种新的数据增强策略多裁剪，在 ImageNet 数据集上达到 75.3％的 top-1 准确率，并超出了所有考虑的迁移任务的监督预训练。

Jun, 2020

挖掘跨图像语义进行弱监督语义分割

该论文研究了只从图像级别监督中学习语义分割的问题，引入了两个神经协同注意力机制来补充地捕捉跨图像的语义相似性和差异性，提高了物体模式学习和语义分割的性能，并在不同的 WSSS 设置下实现了最先进的性能。

Jul, 2020

从音频 - 视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入 transformer 架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

交叉学习：跨模态自监督

本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法，得到良好的性能，并证明我们的特征表示可以转移至其他任务。

Nov, 2018

跨模态和跨视角自监督特征学习

通过利用跨模式和视角的对应关系，该论文提出了一种新颖且有效的自监督学习方法，联合学习 2D 图像特征和 3D 点云特征，并通过神经网络评估跨模态的对应关系，而无需使用人工标注标签。

Apr, 2020

自监督视觉表征学习的传递不变性

文章介绍了一种利用自监督学习的图形结构来学习具有不变性特征的视觉表示，并应用该表示在不同的识别任务中取得了显著性能提升。

Aug, 2017

SSAN: 可分离自注意力网络用于视频表示学习

该论文提出了一种分离的自注意力模块 (SSA)，通过分别建模空间和时间相关性，有效地将空间上下文信息用于时间建模，将该模块添加到 2D CNN 中形成 SSAN，用于视频表示学习，在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法，在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。

May, 2021

EAGLE: 跨视角理解中高效自适应基于几何的学习

通过引入新的无监督跨视图适应学习方法，我们解决了语义场景理解中不同摄像头视角的几何结构变化建模问题，并在不同跨视图适应基准上证明了我们方法在跨视图建模方面的有效性，与之前的无监督领域适应和开放词汇语义分割方法相比，实现了最先进的性能。

Jun, 2024

语义跨视图匹配

本研究提出了一种自动检测和表示 RGB 图像语义信息的方法，以实现与非 RGB 地理信息系统（GIS）进行跨视图匹配，利用由语义概念（如交通标志、湖泊、道路、植被等）分配的图像分割区域进行描述符的设计和匹配。实验证明此方法有效。

Oct, 2015

通过类自适应交叉注意力实现语义图像合成

我们设计了一种使用交叉注意力层代替反归一化层进行图像生成条件的新型架构，旨在实现全局和局部风格转换，并保留先进的重建质量。

Aug, 2023