- 深度引导的半监督实例分割
半监督实例分割的深度引导框架中,深度特征融合和深度控制器的引入提高了模型对深度信息的理解和有效利用,实验证明了方法的有效性,并在 COCO 数据集上优于之前的方法,取得了新的性能指标。
- 使用 COCO 评估目标检测器:一条新的前进之路
通过检查 COCO (2017 版本) 中的成千上万个掩膜,我们发现了不同类型的错误,例如不精确的掩膜边界、未全面注释的实例和错误标记的掩膜。为了保持与先前研究的连续性,我们开发了 COCO-ReM (Refined Masks),这是一组 - 查询驱动的物体检测器可设计成更少阶段吗?
该研究提出了一种名为 GOLO 的全局一次和局部一次(Global Once and Local Once)模型,通过减少解码阶段的数量,同时在性能上仍然取得了相当好的表现,从而改进了基于查询的目标检测器。在 COCO 数据集上的实验结果证 - ICCV借助过去的一点点帮助:用于图像字幕的原型记忆网络
本文介绍了一种通过原型记忆模型,在处理其他训练样本时,可以执行对激活进行注意力操作的网络,并通过 COCO 数据集上的实验进行了评估。
- 使用合成数据提高跨视角 2D 人体姿态估计
提出了一种名为 RePoGen 的人体姿势综合控制方法,它可以生成具有极端视角和姿势的图像,我们使用这种方法来增强 COCO 数据集,实验证明,添加 RePoGen 数据后,可以超过以前的顶视姿态估计算法,同时显著提高底视点数据集的性能。
- 在线开放式半监督物体检测:基于半监督异常点过滤的方法
本文提出了一种新的端到端在线架构来改进和提高开放集装箱半监督目标检测的性能和效率,并在 COCO 数据集上取得了最佳表现。
- 只用公共数据集构建强大可复现的物体检测器
本文提出了 Focal-Stable-DINO,一个强大且可复制的物体检测模型,仅使用 700M 参数即可在 COCO val2017 上达到 64.6 AP,在 COCO test-dev 上达到 64.8 AP。与现有 SOTA 模型不 - CVPR感知、挖掘和净化:一种新颖的物体挖掘框架用于实例分割
该论文提出了一个新的对象挖掘框架,包括语义感知子网络、对象挖掘机制和实例净化策略,可以有效地解决物体不可区分性和实例之间关系建模的难点,实验结果表明该方法优于现有的最优方法。
- 字幕出卖:联合字幕对开放性词汇实例分割进行定位和生成
本文提出了一种基于 Caption Grounding and Generation 框架的简单而有效的方法,借助图像标题中的目标名词发现新类别的实例,通过与 Mask Transformer 基线的结合和 caption generati - 搜索通道维度和映射预训练参数进行目标检测的神经体系结构适应
本文提出了一种神经架构适应方法,可优化特定的骨干网络以适用于对象检测,同时仍可使用预训练参数。通过搜索特定运算和每个块的输出通道维度,我们旨在适应微观和宏观架构。实验证明,在 COCO 数据集上,我们搜索的骨干网表现出优异性能,超过了手工设 - CVPRiFS-RCNN:一种增量式 Few-shot 实例分割器
本篇研究论文介绍了增量少样本分割的方法,通过在 Mask-RCNN 框架的第二阶段中引入基于概率函数的新对象分类器和新的基于不确定性的边界框预测器,利用贝叶斯学习克服了新类别训练样本的不足,同时学习可以估计预测的不确定性以对边界框进行细化的 - CVPR对比度掩蔽:对每样东西进行分割的对比学习
通过在受限的可见类别上学习有标注遮罩,从而消除繁重注释负担,并在新颖的 unseen 类别上分割对象,部分监督实例分割是一个任务。本文提出了 ContrastMask,它在统一的像素级对比学习框架下,同时在可见和未知类别上学习掩模分割模型, - 基于 Mean Teacher 的图像描述生成学习 (CaMEL)
本文介绍了一种基于 Transformer 的图像描述模型 ——CaMEL,其包含两个相互连接的语言模型,采用知识蒸馏的均值教师学习方法,采用不同视觉特征提取器进行评估,结果表明该模型在 COCO 数据集上取得了最先进的结果。
- ICLRPix2seq: 一种用于目标检测的语言建模框架
Pix2Seq 是一种简单且通用的目标检测框架,不同于现有的方法,它将目标检测视为一种基于观察像素输入的语言建模任务,并通过训练神经网络来感知图像并生成所需的序列,与高度专业化和精心优化的检测算法相比,在具有挑战性的 COCO 数据集上实现 - ICCV追求知识:使用双重记忆发现和定位新类别
本文介绍了一种新方法,使用两个内存模块(即工作内存和语义内存)利用先前知识发现和定位大规模未标注数据集中的新物体类别,并在挑战性的 COCO 数据集上展示了该方法的性能。
- 使用分层自监督的无监督实例分割长尾发现
该论文提出了一种可通过学习实例嵌入提供无监督发现实例分割中长尾类别的方法,利用图像中对象之间的丰富关系和层次结构提出了自监督损失方法训练掩码嵌入,经 COCO 数据集训练,该模型能够发现比 COCO 中的常见类别更精细和新奇的对象,并在 L - 通过消除启发式 NMS 简化的物体检测
本文介绍了一种基于 FCOS 检测模型的 NMS-free 端到端的目标检测框架,使用紧凑的 PSS head 实现单个目标实例的自动选择并消除后处理的 NMS,通过停梯度操作成功解决了一对多和一对一标签分配之间的冲突问题,实现了对 COC - CVPRMEBOW: 野外单目身体定位估计
本研究介绍了 COCO-MEBOW 数据集和一种新的基于三重信息的解决方案来改善人体方向和 3-D 姿势估计。该解决方案通过单张图像从 COCO 数据集中的约 130K 人形体实例中预测姿势和方向标签,证明了在人的姿态识别中 COOM- M - 边界中的恶魔:利用边界表示进行基于基底的实例分割
本研究提出了基于 Boundary Basis 的单阶段实例分割 (B2Inst),使用全局边界表示来补充现有的全局掩码方法,引入了一个能够评估每个实例预测的网络块,可以提高实例边界的识别精度,并在 COCO 数据集上,与同样基于 ResN - 稀疏 R-CNN:可学习提议的端到端物体检测
Sparse R-CNN 是一种用于图像中目标检测的纯稀疏方法,通过固定的稀疏一组学习目标建议代替手动定义的物体候选框,并直接输出最终预测结果,表现优于基线模型,可用于 COCO 数据集等。