- CVPR零样本模型诊断
本文提出了一种零样本模型诊断(ZOOM)方法,利用生成模型和 CLIP 实现选择一组提示并自动搜索对应的视觉反事实图像来评估深度学习模型对任意视觉属性的敏感性,实现模型分析和诊断。多项实证研究结果表明,该方法成功地进行了诸如分类、关键点检测 - All in Tokens: 通过软式代币统一视觉任务输出空间
本文提出了一种用于视觉任务的通用模型,通过软代币和掩膜增强等技术,实现了离散 / 固定长度和连续 / 可变长度输出的两种典型视觉任务的统一输出空间,可成功执行目标实例分割和深度估计任务,并在特定任务的 NYUv2 深度估计基准测试中创造了新 - 视觉编程:无需训练的构成性视觉推理
VISPROG 是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似 Python 的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或 Python 函数以产生中间输出,展示了其在 4 - 利用隐性随机函数进行组合性规律解析
本文提出了一种深度潜变量模型的方法,称为组合法规分析(CLAP),该模型通过编码 - 解码架构来表示场景中的概念作为潜在变量以实现类人组合特性,本文还使用神经过程来捕获概念的法则,并通过多个视觉任务证明了其超越了基准方法,从而具有解释性。
- CVPR人类和机器对极端图像变换下的物体识别的鲁棒性
该论文探讨了神经网络架构在解决视觉任务时存在的局限性,与人类学习抽象概念的策略不同。研究利用一组新的图像转换方法,对人类和网络在对象识别任务上进行了评估,发现常见网络的性能迅速下降,而人类能够以高精度识别对象。
- ECCV通用视觉模型的网络监督概念扩展
本文介绍了一种有效且廉价的方法:利用监督数据集学习技能,利用网络图像搜索学习概念,再利用 GPV 跨技能传递视觉知识,以实现 web-based 的概念扩展;同时,提出了支持各种任务的新架构 GPV-2,在多项基准测试中表现优异。
- 计算机视觉中的注意力机制:综述
本文综述了在计算机视觉中引入的各种注意力机制的方法,着重介绍了通道注意力、空间注意力、时间注意力和分支注意力等方面,并提出了未来注意力机制研究的方向。
- ICML具有次二次复杂度的涟漪注意力视觉感知
该论文提出了一种名为 “ripple attention” 的新的、用于视觉 transformer 的次二次注意力机制,可以在线性可观测的时间内量化各令牌对查询的贡献,以实现对于相对空间距离的加权;实验结果表明,此机制对于各种视觉任务非常 - ICCVLLVIP: 一种低光视觉的可见 - 红外配对数据集
本文介绍了一个适用于低光环境下的可见光红外数据集 LLVIP,包含 30976 张严格时间和空间对齐的图片,其中 15488 对可见光和红外图像。实验结果表明,LLVIP 数据集可以促进图像融合、行人检测和图像转换等低光视觉任务的开展。
- 通过分解表示进行自监督的对抗样本检测
该论文提出了一种名为 DRR 的新方法,它使用自编码器结构进行对抗性样本检测,并采用解缠表示来减少不必要的自编码器泛化能力,能够在视觉任务和自然语言任务中提供抗适应性对抗性攻击,并在各种度量标准下表现出更好的性能。
- 单源深度无监督视觉域自适应综述
本文综述了最新的单源深度无监督域适应方法,主要集中在视觉任务中,并讨论了未来研究的新视角。首先介绍了不同领域适应策略的定义和现有基准数据集的描述,然后总结和比较了不同类别的单源无监督域适应方法,包括基于差异性的方法,对抗式鉴别方法,对抗式生 - ICLR自然环境下的视觉注意力感知增强效应取决于任务类型
本论文研究了自顶向下的注意力在自然场景下是否会提高感知能力,在大规模的计算实验中,作者设计了多项视觉任务,通过训练加入了注意力的神经网络,并与基线神经网络进行比较,发现注意力对任务难度越大、任务规模越小、任务内部感知相似度越低时,提高感知能 - 采样免的近似方差传播用于认知不确定性估计
提供了一种比使用蒙特卡洛采样估计神经网络的认识不确定性的方法更加高效的近似方法,该方法适用于大规模视觉任务。
- ICCV注意力增强卷积网络
本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足,提出运用自注意力机制对视觉任务进行处理的方法;通过在图像分类和目标检测任务中实现卷积和自注意力的融合,可有效提高模型精度。
- ICCV任务和领域跨界学习
本文提出了一种新的适应性框架,用于跨任务和领域传递知识,通过在一个完全监督域中学习跨任务和领域的知识,使其在只有部分监督域中实现性能增益。实验证明了该框架在两个具有挑战性的任务(即单眼深度估计和语义分割)和四个不同领域(Synthia、Ca - 深度神经网络:它们为视觉做了什么?
本文讨论了当前深度神经网络在计算机视觉领域的优势与劣势,并探讨了如何解决计算机视觉中所面临的组合爆炸问题。我们认为,当前的深度神经网络很难克服这个困难,因此需要重新思考我们评估算法性能的方法。
- CVPR任务分解:解耦任务迁移学习
本文提出了一种针对可视化任务空间结构的全计算方法,建立起一个任务转移学习的计算分类图谱,并研究了这种结构的一些影响,例如,减少标记数据的需求等。
- 使用二进制卷积神经网络进行 ImageNet 分类的 XNOR-Net
本文提出了两种卷积神经网络的高效近似方案:二进制权重网络和 XNOR - 网络,其中 XNOR - 网络既将卷积层输入又将滤波器二值化,主要利用二值运算来近似卷积,这使得卷积速度快 58 倍且内存占用仅为原来的 1/32,而且其分类性能在 - CVPR紧凑双线性池化
本研究提出两种紧凑的双线性表示方法,与完整的双线性表示具有相同的判别能力,但仅具有几千个维度。这些紧凑的表示通过对双线性池化的核分析导出,为其他紧凑池化方法的研究提供了平台。实验证明,提出的表示方法对于多个数据集的图像分类和少样本学习都具有