- ECCV通过正交性提高 SVD 元层的协方差条件数
通过引入 Pre-SVD 层的正交性,用最近正交梯度(NOG)和最优学习速率(OLR)来改善 SVD 元层对神经网络协方差的条件约束,以提高视觉识别中协方差条件和泛化能力。
- 探究 CLIP 的开放性
该研究通过评估 CLIP 模型的可扩展性,发现它们几乎不是真正的开放模型,并且给出了改善模型开放性的建议,通过增强提示来提高 CLIP 的可扩展性和稳定性。
- CVPR视觉破坏中的注意一致性对于单源域泛化的影响
通过使用图像数据的变形,以及同一样本不同视角间的一致性注意力以强化单一数据分布训练出来的视觉识别模型对不同数据分布(即域)的鲁棒性,并命名该模型为 ACVC。研究表明,ACVC 在 PACS、COCO 和 DomainNet 三个单源域泛化 - 多模态驾驶员行为理解的决策级融合比较分析
本文通过对视频驾驶员观察中的决策级别融合策略进行比较和评估,从视觉识别和多模态识别角度提出决策级别融合的方案,旨在指导融合策略的选择。
- CVPR图像 - 文本 - 标签空间统一的对比学习
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能 - 视觉语言预训练模型是否学习可组合的基本概念?
本文研究预训练可视化学习模型是否会自动产生原始概念的表示,例如物体部分的颜色和形状,提出了一个用于探究这个问题的两步框架:组合概念映射 (CompMap),证明组合模型可以被设计为一组操作,并发现用基本概念激活的模型可以用于细粒度视觉识别和 - MVP: 多模态引导的视觉预训练
本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokeni - ECCV探索大规模零样本图像分类的分层图表示
提出了一种基于层次图知识表示的置信度分类方法,命名为 HGR-Net,用于零样本学习和大规模图像识别,可以有效地识别未见过的类别并区分它们与已见过的类别,在 ImageNet-21K 基准测试中,性能比其他现有技术提升了 7%。
- 基于 Inter-subject Contrastive Learning 的面向主体自适应的基于 EEG 的视觉认知
文章使用一种新方法,通过提高来自不同参与者但属于相同类的特征的相似性,从而实现学习主体无关的表示,进而在训练中仅使用少数样本即可准确预测基于 EEG 信号的视觉刺激类别。在有限数据情况下,即使采用了严格的问题设置,该方法在 EEG-Imag - CVPROmnivore: 许多视觉模式的单个模型
该研究提出了一种基于 Transformer 的 'Omnivore' 模型,使用相同的模型参数在图像、视频、单视角 3D 数据上进行多模态分类,达到与性能同等或更好的效果,并自然地实现了跨模态识别。
- 动态视觉识别的快速扫描和精确定位网络
本文提出了一个新的序列特征学习方法,Glance and Focus Network(GFNet),用于图像识别问题中的减少空间冗余和时间复杂度的优化,GFNet 采用类似人类视觉系统的粗到细的学习方式处理图像,并通过强化学习的方式定位图像 - ECCVPointMixer: MLP-Mixer 用于点云理解
本研究提出了一种通用的点集操作符 PointMixer,通过在多点集之间进行功能混合,提高了针对点云的神经网络的性能,从而在语义分割、分类和点重建等任务中超过了以 Transformer 为基础的方法。
- Transformer 模型是否比卷积神经网络更具鲁棒性?
本文首次提供公平而深入的 Transformer 和 CNNs 的对比,重点关注强度的评估,并表明了 CNNs 可以像 Transformer 一样有效地抵御对抗攻击。同时,我们发现强大的泛化能力主要得益于 Transformer 的自我关 - 深度长尾学习综述
本文系统总结了深度长尾学习的最新进展,围绕着类别再平衡、信息增强和模块改进三个主要类别对相关方法进行详细探讨,并通过提出的相对准确度评估指标对最先进的方法进行了实证分析,为深度长尾学习的应用和未来研究方向提供了重要的参考。
- ConvMLP: 视觉 Hierarchical Convolutional MLPs
提出了层次化的卷积 MLP,称其为 ConvMLP,可用于视觉识别、物体检测和语义分割等任务,与 MLP-Mixer-B/16 相比,ConvMLP-S 使用了更少的参数,且在 ImageNet-1k 数据集上具有较高的准确性。
- 重访 3D ResNets 用于视频识别
通过 3D ResNets 的简单缩放策略和优化的训练策略,以及轻微的架构改变,提高了视觉识别模型的性能,得到了 81.0 和 83.8 的竞争性表现,无需预训练,并通过自监督学习进一步改进表现。
- ICCV针对细粒度视觉分类和重新识别的反事实注意力学习
通过因果推断的反事实关注机制,提高注意力质量和网络预测的准确性,在细粒度图像识别任务中实现了持续稳定的改进。
- ICCV上下文卷积神经网络
本文介绍了一种用于视觉识别的上下文卷积技术,理论基础来自神经科学研究;在图像分类和对象检测任务以及生成式对抗网络的生成结果方面,该技术都取得了较好的性能。
- IJCAI空间注意力学习的信息瓶颈方法
本论文提出了一种基于信息瓶颈的空间注意力模块,用于深度神经网络的视觉识别,该模块可以产生可解释的重点区域,压制背景,提高视觉识别效果。
- CVPR针对视觉识别的上下文转换网络
该论文提出了一种新颖的 Transformer 风格模块,即 Contextual Transformer (CoT) 块,它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习,从而增强了视觉表示能力,可作为更强大的骨干网。