- CVPR稠密预测的概率性提示学习
本文介绍了一种新的概率提示学习方法,利用可学习的类别不可知属性提示描述对象类的通用属性,并与类别信息和视觉上下文知识相结合,定义类别特定的文本分布,通过使用概率像素文本匹配损失来指导密集预测任务,增强了所提出方法的稳定性和泛化能力。实验结果 - $P^{3} O$: 通过提示传递视觉表示以进行强化学习
提出了一种名为 Prompt based Proximal Policy Optimization ($P^{3} O$) 的深度强化学习算法,该算法通过应用提示从目标环境(具有不同的视觉输入)到源环境传输视觉表示,包括三个阶段:预训练、提 - 基于多视角语义一致性的文本监督分割掩模发现 (ViewCo)
本文提出了一种基于文本监督的分割方法,使用多视角一致性学习的方法解决了现有工作中对于同一图像的多个视角的对应问题。实验结果表明,该方法在几个数据集上的平均表现比现有方法提高了最高 2.9%的 mIoU。
- MM神经调谐景观的水平集和不变性
通过水平集和莫尔斯理论,研究了神经元在高维空间上的图像响应,发现这种拓扑特征可以预测不同脑区和卷积神经网络中的神经元响应模式,并推测高阶神经元可以被局部视为各向同性的径向基函数。
- 连锁原型对比学习
本研究提出了一种简单而有效的对比学习框架来解决 Contrastive Self-supervised Learning (CSL) 中样本不足问题,将同一个输入的不同视角拉近,不同输入的视角推远,提高了视觉表征的质量,并在 ImageNe - CVPR针对自监督视觉变换器的补丁级别表示学习
本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务,利用 ViT 的特性,在无需人工注释的情况下提高不同类型视觉任务的性能,通过训练神经网络对各种图像的无监督学习来实现。
- 利用语义分组进行自监督视觉表示学习
本文探讨了从无标签场景中心数据中学习视觉表示的问题,提出了一种的基于对比学习和数据驱动语义槽的语义聚类和表示学习方法,通过此方法能够更好的区分特征和语义相符的像素点,以此来有效地分解场景中的像素群组,并显著提高目标检测、实例分割和语义分割等 - CVPRMixMAE: 混合和掩蔽自编码器用于高效的分层视觉 Transformer 预训练
本文提出了一种名为 MixMAE 的方法,可以有效地预先训练不同的分层视觉转换器,并取代掩蔽图像建模(MIM)方法,仍然可以对受损图像进行建模,而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明,使用 MixMAE 进行预处理 - 面具视觉预训练用于运动控制
本文表明,来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的;为了加快像素学习的进展,本文还贡献了一套手工设计的基准任务,其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习,我们实现了与带标签、状态 - 预训练视觉模型对控制的有效性不足为奇
研究表明,预训练的视觉表示方法对于控制任务的学习同样有效,甚至在某些情况下可以优于基于真实状态的表示方法,而这些预训练模型仅需要使用标准视觉数据集,而不需要在目标环境中使用真实数据。
- 深度表示学习中的幂律研究
本文研究使用自我监督学习方法,在没有标签数据的情况下学习视觉表示,通过计算特征协方差矩阵的本征谱估计幂律系数,发现幂律系数与表示学习的性能和鲁棒性密切相关。
- 示范对比学习
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,优化了最近提出的自监督学习算法,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息,验证了所提出的方法在模拟几种机器人任务,包括 pick and place 任 - RegionCLIP: 基于区域的语言 - 图像预训练
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
- ECCVRegionCL:简单区域交换是否有助于对比学习?
本文针对自我监督学习方法中图片裁剪技术的局限提出了一种叫做区域对比学习的新预处理方法,其通过最大程度利用所裁剪出的画面和其余部分来提高视觉表示的表现,并在 ImageNet,MS COCO 和 Cityscapes 等数据集上实现了最先进性 - RedCaps:由民众创建、为民众服务的网络图像文本数据
通过 Reddit 收集了超过 1200 万个图像和文本对,构建了一个大规模的数据集,帮助机器学习模型学习生成富有多样性的图像描述并学习转换到许多下游任务,而无需使用复杂的筛选流程来保持数据质量。
- Tip-Adapter:面向视觉语言模型的无需训练的 CLIP 适配器
该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型,通过无需训练的键值缓存模型构建配适器权重,极大地提升了 CLIP 的少样本分类能力。
- CVPRWebQA:多跳和多模态 QA
本论文中,我们提出了 WebQA,它引入了一个具有挑战性的新测量标准,该标准涉及大规模最先进模型的困难之处,缺乏新颖对象的语言基础视觉表达和推理能力,但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型,这些模型可以回答问题,而不 - ICCV无监督视觉表示学习中的时间知识一致性
本文提出了一种新的算法,名为 TKC,将时间一致性集成到现有的实例区分范例中,并且能够在 ResNet 和 AlexNet 上学习更好的视觉表示,在下游任务上也有良好的泛化效果。
- 使用弱数据增强进行关系自监督学习的 ReSSL 算法
本文提出一种新的自监督学习方法 —— 关系自监督学习 (ReSSL) 框架,通过建模不同实例之间的关系来学习表示,采用成对相似度的锐化分布作为关系度量来匹配不同增强的特征向量,实验结果表明我们的方法在性能和训练效率方面显著优于先前的最先进算 - ICLRVAT-Mart: 学习 3D 关节物体操作的视觉动作轨迹提议
本文提出了一种基于物体的行动视觉先验的方法,即预测密集的几何感知、交互感知和任务感知的行动特征,结合强化学习策略和感知模块进行训练,通过探索多样的交互轨迹和总结概括所探索的知识来实现更好的感知 - 交互效果,并在大规模数据集上验证了其有效性