本文介绍了一种在线聚类算法 SwAV,在不需要计算成对对比的基础上,通过使用一种被称为预测机制的方式来建立视图之间的一致性,并提出了一种新的数据增强策略多裁剪,在 ImageNet 数据集上达到 75.3%的 top-1 准确率,并超出了所有考虑的迁移任务的监督预训练。
Jun, 2020
该论文研究了只从图像级别监督中学习语义分割的问题,引入了两个神经协同注意力机制来补充地捕捉跨图像的语义相似性和差异性,提高了物体模式学习和语义分割的性能,并在不同的 WSSS 设置下实现了最先进的性能。
Jul, 2020
介绍了一个针对学习自我监督前置任务的音频视频表示方法,通过引入 transformer 架构和空间对齐技术,提高了网络的感知和学习效率,结果表明,该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。
Nov, 2020
本文介绍了一种利用两种不同形式的信息进行自监督表示学习的方法。我们使用视频数据进行我们的方法,得到良好的性能,并证明我们的特征表示可以转移至其他任务。
Nov, 2018
通过利用跨模式和视角的对应关系,该论文提出了一种新颖且有效的自监督学习方法,联合学习 2D 图像特征和 3D 点云特征,并通过神经网络评估跨模态的对应关系,而无需使用人工标注标签。
Apr, 2020
文章介绍了一种利用自监督学习的图形结构来学习具有不变性特征的视觉表示,并应用该表示在不同的识别任务中取得了显著性能提升。
Aug, 2017
该论文提出了一种分离的自注意力模块 (SSA),通过分别建模空间和时间相关性,有效地将空间上下文信息用于时间建模,将该模块添加到 2D CNN 中形成 SSAN,用于视频表示学习,在 Something-Something 和 Kinetics-400 数据集上超过了现有最先进方法,在 MSR-VTT 和 Youcook2 数据集上得到了显著的性能提升。
May, 2021
通过引入新的无监督跨视图适应学习方法,我们解决了语义场景理解中不同摄像头视角的几何结构变化建模问题,并在不同跨视图适应基准上证明了我们方法在跨视图建模方面的有效性,与之前的无监督领域适应和开放词汇语义分割方法相比,实现了最先进的性能。
Jun, 2024
本研究提出了一种自动检测和表示 RGB 图像语义信息的方法,以实现与非 RGB 地理信息系统(GIS)进行跨视图匹配,利用由语义概念(如交通标志、湖泊、道路、植被等)分配的图像分割区域进行描述符的设计和匹配。实验证明此方法有效。
Oct, 2015
我们设计了一种使用交叉注意力层代替反归一化层进行图像生成条件的新型架构,旨在实现全局和局部风格转换,并保留先进的重建质量。
Aug, 2023