- ICML基于随机帧预测的视觉表示学习
通过预测未来帧进行图像表示的无监督学习是一个有前景的方向,但仍然面临挑战。为了解决这一挑战,在本文中,我们重新审视了学习捕捉帧预测的不确定性的随机视频生成的思想,并探索了其在表示学习中的有效性。我们设计了一个框架,训练一个随机帧预测模型,学 - 动态视觉刺激的神经表征
人类通过不断变化的视觉刺激来感知世界,其中场景可以移动、改变外观和距离。这篇研究论文针对动态视觉刺激的大多数研究聚焦于静态刺激,限制了对人类视觉的调查。与之相反,动态视觉刺激提供了更符合生态有效性的方法,但由于时空信息的相互作用,使得解耦稳 - ICLRDINO 作为 von Mises-Fisher 混合模型
DINO-vMF 使用混合模型的方法改进了 DINO 的集群分配概率计算,对于较大的 ViT-Base 模型也更加稳定且在各种下游任务中表现更好,提供了更好的图像表示。
- 利用中间编码块的表示来进行合成图像检测
通过利用中间转换器块提取的图像表示,在可学习的伪造感知向量空间中实现高度泛化的轻量级网络,该网络能编码低级视觉信息,对图片完整性和安全性提出了改进并取得显著性能提升。
- 揭示 VQA 中视觉定位方法的全部潜力
视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而,在处理大规模视觉问题回答中常见的不完美图像表示时,这种对应视觉信息的假设是存在缺陷的,其与预期的真实内容之间的偏差导致了这些方法的潜在优势 - 从脑电图解码自然图像进行物体识别
我们提出了一种自监督框架,从脑电信号中学习图像表征。通过对配对图像刺激和脑电反应进行特征提取,然后使用对比学习来对齐这两种模态,我们的方法在最广泛的脑电图像数据集上取得了最先进的结果,并在 200 种零样本任务中达到了 15.6% 的 to - ICML在图像表征中识别可解释子空间
我们提出了一种利用对比概念的自动特征解释(FALCON)的可解释性框架来解释图像表示的特征,通过使用大规模字幕数据集(如 LAION-400m)和预训练的视觉 - 语言模型(如 CLIP),FALCON 对高度活化的裁剪图像进行字幕,并得出 - 自监督视觉表示学习的堆叠联合嵌入架构
本文介绍了使用堆叠式联合嵌入架构(JEA)来学习高度可分离的语义层次表示的方法,从而产生表现出更具独特的语义概念的表示空间,证明了其在语义分类上的有效性。
- SSL 模型是否有 déjà vu?自监督学习中无意识 memorization 的情况
本文研究了自监督学习算法中的 deja vu 记忆现象,该现象将 image-specific 信息非预期地编码进模型,从而带来潜在的隐私风险。作者展示了这种记忆现象的存在性、普遍性和难以检测性,并提出了可能的缓解策略。
- 二元潜在扩散
本文基于自动编码器训练了一个伯努利编码分布的二元潜空间模型,用于图像压缩和高分辨率图像生成。结果表明该方法无需使用多级层次结构即可大幅提高采样效率,生成的图像质量好且效果与现有先进方法相当。
- 联合嵌入预测架构的图像自监督学习
该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示,引入了 I-JEPA 框架,通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明,与 Vision Transformers 相结合,I- - 基于知识图谱的上下文驱动视觉对象识别
通过将语境知识编码到知识图中,提高深度学习方法的鲁棒性,增强物体识别模型对于跨领域和真实世界场景的表现。
- 自监督视频预训练产生强大的图像表示
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默 - VICRegL:本地视觉特征的自监督学习
本文提出了一种名为 VICRegL 的新方法,该方法可以同时学习好的全局和局部特征,从而在检测和分割任务上取得出色的性能,同时保持分类任务上的良好性能。
- 面具孪生网络用于标签高效学习
提出了一种自监督学习框架 ——Masked Siamese Networks (MSN),用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配,可以进行自监督预训练,该策略特别适用于 Vision Transfo - CVPR联合分布至关重要:用深度布朗运动距离协方差进行小样本分类
该研究提出了一种深层布朗运动距离协方差(DeepBDC)方法来解决少样本分类问题,其关键思想是通过测量嵌入特征的联合特征函数与边缘特征的乘积之间的差异来学习图像表示,实验表明 DeepBDC 显着优于同类方法,创造了新的最先进结果。
- CVPR利用几何集合一致性进行自监督图像表示学习
本文提出了一种自监督的图像表示学习方法,利用三维几何一致性来指导学习过程,并在对比学习框架中引入三维几何一致性作为约束,成功学习出既具有一般性,又能够在各种下游任务中取得优越性能的图像表示。
- 核最大化依赖下的自主学习
本研究从统计相关性的角度探讨自我监督学习方法,提出了一种基于 Hilbert-Schmidt 独立性准则(SSL-HSIC)的自我监督学习方法,该方法最大化与图像表示转换和图像身份的相关性,并将那些表示的核化方差最小化。实验表明,该方法在 - ICML通过结合对比学习、图像重建和注意力加权汇聚,实现细粒度视觉表征
本文提出对比重构(ConRec)算法,它通过联合优化对比和自重构损失获得图像表示,并添加了一个自重构任务和一个在对比学习任务中的注意机制以改进捕捉图像的细粒度视觉特征,证明该算法在捕捉细粒度视觉特征方面优于 SimCLR。
- 从自然语言监督中学习可转移的视觉模型
通过预测图像与文本配对来预训练计算机视觉系统,使其可以从自然语言描述中直接学习视觉概念,从而实现零样本迁移,并在多个计算机视觉任务上展现出竞争力。