- 利用激活进行超像素解释
研究利用神经网络图像分类器的激活来提取显著性方法的分割,以改善物体定位性能并评估显著性方法的语义一致性。
- 分析多模态大型语言模型的视觉感知
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的 - 掩码式多查询槽注意力用于无监督对象发现
通过利用 DINO ViT 特征的集合查询表示来重建输入特征,我们提出了一种基于物体为中心的方法,通过遮罩输入特征,有选择性地忽略背景区域,以便模型在重建阶段更关注显著对象。此外,我们将 slot attention 拓展为多查询方法,使模 - 利用对抗擦除和伪标签改进弱监督目标定位
该论文研究了一种弱监督对象定位的框架,通过仅使用图像和图像级别的类标签训练神经网络,旨在训练出能够同时预测对象类别和位置的神经网络,并通过采用对抗抹除和伪标签来提高定位准确性。在 ILSVRC-2012、CUB-200-2011 和 PAS - 来自以自我为中心的视频的空间认知:视力范围之外,心灵之内
通过使用自我中心相机捕获的观测,本研究旨在模仿人类空间认知能力,从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法,将部分二维观测提升到三维世界坐标,通过视觉外观、三维 - 针对少样本个性化实例识别的对象条件下实例集
现在,用户要求视觉系统的个性化增强,能够从少样本数据集中识别和定位个人实例对象(例如,我的狗而不是狗)。本文构建了基于多阶统计的 Object-conditioned Bag of Instances (OBoI) 模型,通过扩展通用对象检 - EcoSense: 边缘云协作下的岸边船只能效智能感知
提出了一种难度感知的边缘 - 云协同感知系统,用于检测岸边的海洋物体,该系统将任务分为物体定位和细粒度分类,并根据预估的难度将物体进行边缘或云内分类。该系统在广泛使用的海洋物体检测数据集上表现出卓越性能([email protected] +4.3%),在系统 - 通过级联深度估计和校准实现准确的基于摄像头的 3D 物体检测
本文提出了一个基于相机的 3D 目标检测的级联框架,通过深度估计和深度校准来有效地学习深度信息,实现从 2D 到 3D 空间的特征提取和目标定位。在多个检测器上进行广泛实验,取得了较高的性能表现。
- 弱监督语义分割的空间结构约束
利用空间结构约束减轻关注扩展在弱监督语义分割中的非预期对象过度激活的问题,并通过 CAM 驱动重建模块和激活自调节模块来实现更好的对象定位和分割结果。
- Open3DIS: 基于 2D 掩码引导的开放词汇 3D 实例分割
Open3DIS 是对 3D 场景中开放词汇实例分割问题的一种新解决方案,通过聚合帧间的 2D 实例掩码并将其映射到几何连贯的点云区域作为高质量的对象提案,与 3D 非特定类实例提案相结合,能够在真实世界的广泛对象中实现显著的性能提升。
- BEVNeXt:复兴稠密的 BEV 框架用于三维物体检测
通过引入增强模块,包括强制物体一致性的 CRF 调制深度估计模块、具有扩展感受域的长期时域聚合模块和结合透视技术与 CRF 调制深度嵌入的两阶段物体解码器,本文旨在解决现有密集 BEV 基础的三维物体检测器的缺点。经过这些增强组件,我们提出 - 基于视觉语言变换器的新兴定位特性
采用预训练的视觉 - 语言模型,并借助 Grounding Everything Module (GEM) 的自我 - 自我注意机制,可以实现无需微调的零样本开放词汇的目标定位,并通过一系列正则化方法进一步提高模型的泛化能力。在各种基准任务 - 面向工业环境中多视角单目相机系统的物体姿态估计标注流水线
在大型工业空间中,物体定位尤其是物体姿态估计对于物料流动操作至关重要。本文提供了一种在大型单目图像数据集上进行标注而无需人工劳动的方法,通过定位空间中的摄像头、将它们的位置与动作捕捉系统统一,以及使用一组线性映射将感兴趣物体的三维模型投影到 - FDCNet: 特征漂移补偿网络用于渐进式弱监督目标定位
该研究提出了一种逐步增加无监督对象定位(CI-WSOL)的方法,通过只使用图像级别的注释来增量学习新类别的对象定位,并保留对先前学习类别的定位能力。实验结果表明,该方法表现优于其他基线方法。
- BroadCAM: 面向小规模弱监督应用的结果无关类激活映射
我们提出了一种面向小规模弱监督应用的结果无关 CAM 方法,叫做 BroadCAM,通过在各种 CNN 架构中对 VOC2012(自然图像)和 BCSS-WSSS(医学图像)进行评估,在小规模数据(不到 5%)中表现出比现有 CAM 方法更 - Vote2Cap-DETR++:解耦定位与描述的端到端三维稠密字幕
通过并行解码,Vote2Cap-DETR 提出了一种将对象定位和描述生成解耦的简单而有效的变压器框架,以及引入了迭代空间精细化策略和额外的空间信息来提高定位性能和准确描述,实验证明其优于常规的 “检测然后描述” 的方法。
- 能否定位?交互式提及表达生成
本文提出了一个具有相互作用的交互式 REF 模型,利用用于识别目标定位以及由 REC 模型定位的视觉区域的信号逐步修改 REs,实验证明该模型在三个参考数据集上优于现有方法,并通过人工评估证明其生成了更好且具有交互能力的 REs。
- MCTformer+: 弱监督语义分割的多类标记变换器
本文提出了一种新颖的基于 Transformer 的框架,旨在通过生成准确的类特定目标定位图作为伪标签来增强弱监督语义分割,并探讨了 Transformer 模型捕捉类特定关注力以实现具有类鉴别性的目标定位的潜力。
- ICCV级联 DETR:深入高质量的通用目标检测
我们引入了 Cascade-DETR 用于高质量的通用目标检测,通过提出级联注意力层来共同解决对多样领域的泛化和定位准确性问题,通过限制关注先前的目标框预测来显式地将对象中心信息集成到检测解码器中。为了进一步提高准确性,我们重新审视了查询的 - YOLIC: 边缘设备上物体定位和分类的高效方法
YOLIC 是一种高效的物体定位和分类方法,采用基于语义分割和目标检测的方法,利用感兴趣细胞而不是像素进行分类,不仅降低计算负荷,还能够获得物体的粗略形状识别,无需边框回归,并且实现了在相对较快的速度下实现与 YOLO 算法相当的检测性能。