- CVPRGOO:零售环境中注视对象预测数据集
介绍了一项名为 "注视物体预测" 的新任务,旨在预测人类注视的物体的边界框。为了在此任务上训练和评估注视网络,提出了一个名为 Gaze On Objects (GOO) 数据集,由一个大型的合成图像数据集 (GOO Synth) 和少量的真 - ICML用高斯瓦瑟斯坦距离重新思考旋转物体检测
本文提出了一种基于高斯 Wasserstein 距离的新型回归损失函数作为解决旋转检测回归损失设计中边界不连续性和其对最终检测度量的不一致性的基本方法,通过将旋转包围盒转换为 2D 高斯分布来实现,具有高斯 Wasserstein 距离(G - ECCV面向人群行人检测的可见特征引导
提出了一种称为 Visible Feature Guidance (VFG) 的机制,通过可见性特征对人行检测任务中的 Bounding Box 进行可视回归,使用 Hungarian algorithm 关联人体部位,能够提高人行检测的性 - ECCVRPT: 孪生视觉跟踪的点集表示学习
提出了一种基于代表点表示的有效视觉跟踪框架,结合多层级聚合策略获取细致的结构信息,实现了对目标状态的精确估计,并在多个基准测试上取得了新的最佳性能。
- ECCV用于目标检测的 IoU 预测的概率锚点分配
本文提出了一种新的锚点分配策略,通过模型的学习状态自适应地将锚点分成正样本和负样本,实现概率推理,并验证其有效性。该方法只在 RetinaNet 基线中添加了一个卷积层,并且不需要每个位置多个锚点,因此非常高效。
- ECCV深入学习物体检测中的包围盒
本研究提出一种名为 DDBNet 的盒子重组方法,过滤掉错位的盒子并将选定的盒子分成边界,并将对齐的边界搜索和分组成一种优化盒子,从而实现更准确的定位,得出实验结果表明我们的方法是有效的,并达到了物体检测领域的最高性能。
- AAAIKPNet:面部检测的极简解决方案
KPNet 提出了一种基于小型神经网络检测面部关键点的方法,可以快速准确地推断面部边界框的位置,其具有实时性和较高的准确率。
- SMOKE: 基于关键点估计的单阶段单目三维物体检测
本篇论文提出了一种名为 SMOKE 的新型 3D 对象检测方法,该方法结合单点估计和回归 3D 变量来预测每个检测到的对象的 3D 边界框,不需要复杂的前 / 后处理、额外的数据和细化阶段,并且在 KITTI 数据集上性能优于现有的单目 3 - 以中线对的形式表现定向物体
本文提出了一种名为 O^2-DNet 的新型模型,该模型可以通过预测每个目标内的一对中间直线来检测有方向的对象,并且它是一种一级、无锚点和无 NMS 的模型。
- SiamCAR: Siamese 全卷积分类和回归用于视觉追踪
该研究提出了一种使用全卷积孪生网络以像素级方式解决视觉跟踪问题的方法,其中包括特征提取和边界框预测两个子网络,不需要基于区域建议,能够更简单、更准确地进行目标跟踪。
- ICCV大规模物体检测 —— 无需细粒度边界框检测 11K 类
本研究提出了一种半监督方法,只需要较少数量的粗粒度类别的边界框注释和大规模细粒度类别的图像级标签,即可实现接近完全监督检测的所有类别的检测精度,包括了使用共享骨干,基于软注意力的候选建议重排和双级存储器模块的相关性。实验证明,这种方法在 I - 基于关键点图的多尺度细胞实例分割
本文提出了一种基于关键点检测的、基于框的细胞实例分割方法,它将细胞检测问题转化为关键点检测问题,再结合检测框及特征图进行细胞分割,相较于其他实例分割技术表现出更好的性能。
- 通过检测准确分辨密集人群中的位置、大小和数量
介绍了一种用于人群计数的检测框架,采用 LSC-CNN 模型,解决了人群中的人头检测、计数等问题。
- FoveaBox:超越基于 Anchor 的目标检测器
本文提出了 FoveaBox 框架,一种准确,灵活且完全无锚点的物体检测方法,通过预测类别敏感的语义图和每个位置的类别不可知的边界框,避免与锚相关的计算和超参数问题。与所有先进的物体检测器不同,FoveaBox 可以直接学习物体的存在可能性 - 通过极值点和中心点分组进行自底向上的目标检测
本文提出了一种使用基于关键点估计网络的下向方法进行目标检测的算法,我们只需检测每个对象的最高、最左、最下、最右以及中心五个极点,并且如果这些点在几何上对齐,则将其分组为一个边界框,从而避免了区域分类或隐式特征学习,此算法表现出了与基于区域的 - OriNet:一种完全卷积网络用于 3D 人体姿态估计
该研究提出了一种新的 3D 人体姿态估计方法,即利用肢体方向与肢体区域的边界框一起表示 3D 姿态,并且通过简单的方法在多项基准测试中取得了良好的结果,该方法具有较好的泛化性能。
- 多阶段强化学习用于目标检测
采用强化学习方法进行对象检测,采用预定义区域候选树、缩放操作和优化奖励函数等技术手段,实现更精准的物体边框配置。
- AAAIPixelLink: 通过实例分割检测场景文字
本文介绍了一种基于实例分割的场景文本检测算法 PixelLink,该算法通过像素链接将文本实例区分出来,并直接从分割结果中提取文本边界框,相比于依赖于边界框回归的算法,PixelLink 不仅性能更优,而且需要更少的训练迭代次数和数据量。
- CVPR使用点击监督训练目标分类器
本文提出了一种通过点击目标物体的中心点来标注边界框的标注方法,结合现有的弱监督目标定位技术,可在所有训练图像上联合定位目标边界框,与传统手动标注方法类似的定位出高质量目标检测器,标注时间可减少 9-18 倍。
- 一种基于上下文感知的端到端自然语言对象检索方法
本文介绍一种通过深度强化学习的方式,结合空间和时间情境及自然语言先验知识,移动和重塑边界框以定位描述中的物体,从而实现自然语言目标检索任务。作者实验表明,该方法在多个数据集上均优于现有算法,特别在 ReferItGame 数据集上,该方法相