对比学习中的实例相似度建模

Jun, 2023

Inter-Instance Similarity Modeling for Contrastive Learning

Chengchao Shen, Dawei Liu, Hao Tang, Zhe Qu, Jianxin Wang

TL;DR本文提出了一种新的图像混合方法 PatchMix，用于对比学习中的视觉 Transformer，以对图像之间的相似性进行建模，并证明该方法比现有的方法在多项实验中表现更好。

Abstract

The existing contrastive learning methods widely adopt one-hot instance discrimination as pretext task for self-supervised learning, which inevitably neglects rich inter-instance similarities among natural images

contrastive learning self-supervised learning vision transformer image mix method patchmix

发现论文，激发创造

演化图像组合特征表示学习

本文提出一种名为 PatchMix 的数据增强方法，并结合卷积神经网络进行训练，使得在广泛数据集上展现出了更好的迁移学习能力，同时还探索了进化搜索作为指导策略的方法。

Jun, 2021

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

使用补丁混合将 ViT 补丁选择性硬连到 CNN 中

本研究使用 Patch Mixing 数据增强方法，旨在探讨是否可以通过有效地硬连中的归纳偏差，使 CNNs 模拟出 ViTs 的图像选片能力，结果显示 ViTs 不会因 Patch Mixing 而改善或恶化，但 CNN 将获得忽略非上下文信息和改进遮挡基准的新功能，在 CNNs 中模拟 ViTs 的能力，因此 Patch Mixing 是一种模拟 ViTs 能力的方式。

Jun, 2023

基于任务内互注意力的视觉 Transformer 模型用于少样本学习

基于 Vision Transformer (ViT) 架构，本文提出了一种用于少样本学习的任务内互注意方法，通过交换支持集和查询集的类别标记与图像片段标记，实现了互注意，从而加强了类内表征，并促进了同一类别样本之间的相似性。与最先进的基准方法相比，在五个常见的少样本分类基准任务中，本文提出的框架在 5-shot 和 1-shot 情况下表现出的性能更好，同时具有简单、高效的计算能力。

May, 2024

本地 - 全局自监督视觉表示学习

本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Oct, 2023

非对称式补丁采样用于对比学习

本文提出了一种新的不对称补丁采样策略，用于对比学习，以进一步增强外观不对称性以获得更好的表示，并在 COCO 数据集上实现了最先进的物体检测和实例分割性能。

Jun, 2023

MIMIC：蒙面图像预训练并混合对比细调用于面部表情识别

利用自监督学习方法在中等规模的图像数据集上，对视觉 Transformer 进行预训练，并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异，实现更好的表征学习。

Jan, 2024

对比变压器：具有 Transformer 固有补丁的对比学习方案

该论文提出了一种对比学习方案 Contrastive Transformer，它可以使现有的对比学习技术（通常用于图像分类）受益于密集下游预测任务（如语义分割）。通过对基于地面真实掩模的斑块进行监督级别的对比学习，选择用于挑选难负样本和难正样本的斑块。该方案适用于所有视觉 Transformer 体系结构，易于实现，并引入最少的额外内存占用。同时，该方案无需使用大批量，因为每个斑块都被视为一张图片。最终的结果在各个类别上得到了一致的增加平均 IoU，并且测试表明该方案具有推广性。

Mar, 2023

TiMix：文本感知的图像融合用于高效视觉语言预训练

Self-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态，使现代视觉 - 语言预训练（VLP）模型在无监督学习方面取得显著的进展。然而，由于网络采集的文本 - 图像对中存在噪声问题，在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率，我们提出了 Text-aware Image Mixing（TiMix）方法，将基于混合的数据增强技术应用到 SMCL 模型中，能够在显著提升性能的同时，不会显著增加计算开销。我们从互信息（MI）的角度对 TiMix 进行了理论分析，表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明，与现有方法相比，即使减少了训练数据量并缩短了训练时间，TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力，为 VLP 模型在实际场景中的广泛应用带来了好处。

Dec, 2023

无配对图像转换的对比学习

提出了一种基于对比学习的图像翻译方法，通过最大化两个元素之间的互信息来鼓励相应图像块之间的相似性，从而实现不同领域之间的图像转换，该方法可在单个图像条件下进行一侧图像转换，同时提高了合成图像的质量和减少了训练时间。

Jul, 2020