- SparseFormer: 有限潜在令牌的稀疏视觉识别
本文提出了一种命名为 SparseFormer 的新方法,以在端到端的方式中模仿人的稀疏视觉识别,其中 SparseFormer 使用稀疏特征抽样过程,在潜在空间中使用极少量的标记(降至 49),而不是在原始像素空间中处理密集单元,从而具有 - 视觉任务的视觉语言模型综述
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
- CVPR通用类别发现的动态概念对比学习
本文提出了一种动态概念对比学习(DCCL)框架,该框架通过交替估计基本视觉概念和学习概念表示来有效地提高聚类准确性。实验结果表明,DCCL 在通用和细粒度视觉识别数据集上取得了新的最优表现,尤其是在细粒度方面表现良好。
- AAAI用梯度下降学习分形
本文介绍了一种通过梯度下降学习分形图像参数的方法,用于生成类似于目标图像的分形图像,此方法具有高可视品质的能力并且具备对不同损失函数的兼容性,为后续任务、科学理解等提供了多种应用潜力。
- CVPR多模态视觉识别中缺失模态的多模态提示
本文提出一种使用 prompt learning 的多模态学习框架,从而解决真实世界中遇到的模态缺失和模型训练资源需要的挑战。框架中含有 modality-missing-aware prompts,可插入到多模态 transformers - 开放领域视觉实体识别:朝着识别数百万维基百科实体迈进
本文正式提出了开放域视觉实体识别(OVEN)这一任务,为评估预训练模型的普适性,构建了一个最大标签数量的通用视觉识别基准数据集。该数据集将 14 个现有的数据集标签全部调整为维基百科实体,其中包含了六百万个可能的实体,我们在此基础上测试了一 - ConvNeXt V2: 使用遮蔽式自编码器共同设计和扩展 ConvNets
本文提出了 ConvNeXt V2 模型,融合了无监督学习技术和架构优化,采用全卷积掩码自编码器框架和新的全局响应归一化层,显著提高了各种识别基准的性能,并提供各种尺寸的预训练模型。
- ICLRGPViT:一种高分辨率非分层视觉 Transformer 模型,支持群组传播
本文提出的 Group Propagation Vision Transformer 模型是一种新颖的非分层变压器模型,旨在用于高分辨率特征的普适视觉识别,通过 Group Propagation Block 实现效率最大化,该方法在各种视 - CVPRMIC: 用于上下文增强领域自适应的遮蔽图像一致性方法
本文提出了一种新的被称为 Masked Image Consistency (MIC) 的模块,用于提高无监督域适应(UDA)的性能,它通过学习目标域中的空间上下文关系作为强健视觉识别的附加线索来加强 UDA。该方法可用于不同的视觉识别任务 - 自监督学习的情景推理
本文基于自监督学习提出了一种上下文感知的自监督学习方法 SeCo,该方法使用可学习的外部记忆存储先前的上下文信息以支持目标辨识,通过两个评估协议证明 SeCo 的性能优于目前最先进的自监督学习方法,并准确模拟人类学习行为。
- 预训练的 Transformer 金字塔网络
本研究提出了一种基于屏蔽图像建模的完整预训练框架,统一复现与识别阶段,并通过深入的技术贡献,在图片分类、物体检测和语义分割方面实现了新的最佳结果。
- 瓶中之语:语言模型引导的概念瓶颈用于可解释的图像分类
本研究提出了一种基于 GPT-3 语言模型的 LaBo 方法来构建 Concept Bottleneck Models,LaBo 可以有效地搜索与给定问题领域相关的候选瓶颈概念,通过将 GPT-3 的句式概念与图像对齐形成瓶颈层,最终实验结 - EMNLP视觉命名实体链接:一个新数据集和一个基准
本文提出了一个基于纯视觉的命名实体链接 (VNEL) 任务,其目的是仅基于图像识别出图像中的实体,并将其链接到知识库中的对应命名实体。同时,作者们还提出了三个不同的子任务,分别为 V2VEL、V2TEL 和 V2VTEL,针对不同类型实体, - ECCV解耦混合:面向通用视觉识别
提出一种新的 “分离混合” 方法以训练 CNN 模型进行 OOD 视觉识别,通过解耦每个图像为判别性和易受干扰区域,同时提升了模型从判别性区域获取特征和抑制干扰性区域的能力;实验结果表明,在测试数据上具有高的泛化性能。
- ACLCOFAR: 图像搜索中的常识和事实推理
通过 KRAMT 框架结合图像与查询语言以期在图像搜索中启用常识和事实推理,其检索性能在新数据集 COFAR 上得到评估与相关方法进行比较。
- CVPRBias Mimicking: 一种用于减轻偏差的简单采样方法
本文提出了一种新的类别条件采样方法 Bias Mimicking,能够有效地提高具有不平衡数据样本的视觉识别模型中 Bias groups 的识别准确度,并能在较少的超参数调整下实现
- 半监督和无监督深度视觉学习:一项综述
本文综述了针对可视化识别问题的先进深度学习算法在半监督学习和无监督学习范式下的研究进展,提出了统一的分类方法,并分析了它们在不同学习场景和计算机视觉任务中的设计原理及应用,最后探讨了 SSL 和 UL 中的新趋势和挑战。
- 请求式视觉识别
本文提出了一种新的视觉识别范式,名为 ViRReq,通过将视觉识别分解成命名为请求的原子任务,并利用知识库和语言驱动识别,在功不完备的数据集上学习复杂的整体 - 部分层次结构,并且能够轻松地插入新的概念。
- SplitMixer: MLP 模型中的脂肪裁剪
SplitMixer 是一个简单且轻量级的 MLP-like 架构,包含用于混合空间位置和通道信息的两种交替卷积操作,理论和实验证明它在准确性,参数数量和速度方面都表现出色。
- 2020 世界机器人挑战赛伙伴机器人:基于数据驱动的移动机器人整理房间方法
采用数据驱动的方法,利用移动机器人完成家庭环境中的整理任务,并在 2020 年世界机器人挑战赛中获得第二名。核心技术包括移动机器人、视觉识别、物体操作和运动规划。