- CVPR自监督视觉表示学习的多模式在线知识蒸馏
本文提出了一种多模在线知识蒸馏方法来提高自监督视觉表征学习,通过自蒸馏和交叉蒸馏两种蒸馏模式,实现了不同模型之间的知识交互,并通过跨注意力特征搜索策略增强了不同模型之间的语义特征对齐,实现了两个异构模型相互吸收知识以提高其表征学习性能。实验 - 对比学习的合成硬负样本
本文提出了一种特征级方法,即采样合成难负样本用于对比学习(SSCL),以更有效地利用更难的负样本。该方法通过混合负样本生成更多且更难的负样本,然后通过控制锚定样本与其他负样本的对比度的方式进行采样,并且考虑到假负样本的可能性进一步消除了负样 - 跨语言视觉言语表征学习
本文探讨了跨语言自监督视觉表示学习,使用 Raw Audio-Visual Speech Encoders(RAVEn)框架对无标注的多语言数据进行预训练,然后用标记的转录 fine-tune 视觉模型,实验证明多语言模型优于单语言模型,多 - ICLR基于消息传递的对比学习动态学习视角
本论文介绍了反差学习的学习动态的一种可解释的形式,使用信息传递方案于相应的增强图上的特定消息传递方案对比度梯度下降,建立了反差学习和消息传递图神经网络之间的关系。
- 语言驱动的机器人表示学习
本文介绍了一种基于语言驱动的视觉表示学习方法,即 Voltron,并通过全面的实验验证表明其在五种不同的机器人学习问题上的表现优于以往技术,特别是在需要更高级特征的问题上。
- CVPR通过语言引导采样学习视觉表征
本文提出一种新颖的视觉表达学习方法,使用语言相似性来对比学习语义相似的图像对,通过对比语言的相似性来采样图像视图对,避免手工增强和学习聚类。我们的方法通过预训练语言模型来引导学习,显示出比基于图像和图像 - 文本表征学习方法更好的特征。
- NASiam:使用神经架构搜索技术对孪生网络进行高效表示学习
文章介绍了一种名为 NASiam 的新方法,利用不同 iable NAS 技术改进了基于孪生网络的对比学习框架 (如 SimCLR、SimSiam 和 MoCo) 内的多层感知器投影和预测器 (编码器 / 预测器对) 结构,而保留了之前基线 - 迈向无监督视觉推理:现成特征是否具备推理能力?
本研究探索了通过视觉表征学习来评估对象信息如何被保留,例如它们的空间位置、视觉属性和相对关系,并介绍了一种用于评估视觉表征的协议,重点关注视觉推理的任务,比较了局部特征和面向对象的特征对于视觉推理的影响。
- 定位与语义:语言如何促进视觉表征学习?
我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征,在广泛的任务范畴内评估学习表征的质量,发现视觉 - 语言模型更适合标签预测任务,而仅视觉模型更适合需要更多局部信息的密集预测任务,同时指出语言有利于视觉模型更好地学习语义,但 - ECCV高效有效的自监督视觉表示学习
本研究提出一种新的辅助任务 —— 旋转预测,用于加强现有最先进的基于相似性和对比性方法,并在多个数据集上证明了我们的方法能显着提高性能。
- OpenMixup: 开放式混合工具箱与视觉表征学习基准
本文提出了一种称之为 OpenMixup 的深度神经网络图像数据拼接工具,可以应用于监督、半监督和自监督学习,具有集成模型设计和训练平台、各种数据混合增强方法以及实用的模型分析工具等功能。同时还在多个数据集上提供图像分类基准测试,以加速研究 - ICLR通过量化逆探测测量无监督表示的解释性
通过反向线性探测法估计视觉表征的语义信息,以及使用监督分类器自动标签大型数据集以丰富概念空间,评估了大量自监督表征的语义清晰度,并对其进行排名和分析。
- 离线视觉表示学习用于体感导航
本文提出一种名为离线视觉表示学习的方法,通过使用自监督学习在大规模图片数据上进行离线预训练,再在线微调特定任务中的视觉运动表示,并在多个数据集上进行了实验,发现该方法在图像导航和目标导航任务上均取得了显著的性能提升。
- 因果推理遇见视觉表征学习:一项前瞻性研究
本文综述了现有的因果推理方法在视觉表征学习中的应用,探讨了当前方法和数据集的限制,并提出了因果推理算法基准的前景挑战、机会和未来研究方向,以更有效地实现可靠的视觉表征学习及相关应用。
- CVPR论同孪表示学习中的不对称性重要性
本论文探讨了利用不对称网络结构进行自监督表示学习的重要性,发现保持目标编码比源编码相对较低的方差通常对学习有利,并且在多个案例和数据集上得到了验证和实验结果的支持,可以在 ImageNet 线性探针上实现最新的精度,并在下游传输学习方面取得 - CLIP 在医学领域是否像在通用领域一样有益于视觉问答?
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的 PubMedCLIP 模型,与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。
- SLIP: 自监督与语言图像预训练的结合
本文提出 SLIP,结合基于自监督的学习和 CLIP 预训练的多任务学习框架,通过在 ImageNet 和其他数据集上进行多个实验,发现 SLIP 表现出更好的性能,同时获得比基于自监督学习和语言监督学习更高的准确性提高。
- VT-CLIP: 使用视觉引导文本增强视觉语言模型
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
- CVPRDenseCLIP: 基于语言引导的密集预测和上下文感知提示
本文提出了一种框架,通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测,是一种模型不可知的方法,可应用于任意密集预测系统和各种预训练视觉 Backbones,包括 CLIP 模型和 ImageNet 预训练模型,实证实验表明,我 - ICLR对比自监督学习中的维度崩塌的理解
本文介绍了一种自监督学习方法 —— 对比学习。为了避免嵌入向量全部收敛到常数解的问题,这篇文章提出了一种新的对比学习方法 DirectCLR,该方法直接优化表示空间而不依赖于显式可训练的投影仪。实验表明,DirectCLR 在 ImageN