通过展开潜在结构实现可解释的 R-CNN
本文提出了一种基于深度架构的场景理解方法,通过一个卷积神经网络和一个递归神经网络分别提取图像特征和分层物体结构,结合基于描述性语句的弱监督训练,实现场景图像的自动解析,该方法在 PASCAL VOC 2012 数据集上表现出色。
Apr, 2016
提出一种基于卷积神经网络的 Region Proposal 方法 R-CNN,它与 CNN 结合起来使用更高的上下文信息,加上有监督的预培训方法,实现了在 PASCAL VOC 2012 数据集上的平均准确率 mAP 达到 53.3%。
Nov, 2013
这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想,将其嵌入移动视觉场景理解的递归网络架构中,以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中,通过不同 iable 几何操作进行预测和分割,十分成功。
Dec, 2018
该研究提出了一种从预先训练的卷积神经网络中提取对象 - 部分概念的学习策略,通过挖掘预先训练的 CNN 中的潜在模式,并将它们与不同的语义部分关联来逐步在 CNN 上构建一个具有语义解释性的图形模型,以实现层次化的对象理解。
Nov, 2016
本研究提出基于卷积神经网络的物体检测系统,使用基于贝叶斯优化的搜索算法和结构化 loss 进行物体定位,实验证明两种方法的结合优于先前的最先进方法。
Apr, 2015
本文提出了一种新颖的事后框架 UCAG,通过对模型置信度进行空间审查,增强了神经网络决策的解释能力。该方法通过细致地分析输入特征,提供了丰富而清晰的解释,从而提高了解释的表达能力,并超越了现有方法的性能。
Dec, 2023
本研究提出了基于级联卷积神经网络的两种体系结构,旨在解决在没有昂贵人工注释下进行的弱监督下的目标检测问题,第一阶段从全卷积神经网络中提取类特定区域提议的最佳候选项,在三阶段体系结构中,中间阶段通过第一阶段的激活映射来提供物体分割。这些体系结构在弱监督目标检测,分类和定位领域的实验中表现出了改进。
Nov, 2016
本文提出了一种综合局部外观特征,对象关系的上下文信息和全局场景上下文特征的集合物体检测系统,该系统采用基于对象建议的完全连接条件随机场(CRF)进行建模,并利用快速平均场近似方法有效地进行 CRF 模型中的推理,实验结果表明,与基线算法 Faster R-CNN 相比,我们的方法在 PASCAL VOC 2007 数据集上实现了更高的平均精度(mAP).
Apr, 2016
本论文涉及基于区域的检测器,使用卷积网络实现高效的物体检测,使用位置敏感的得分图解决分类中的平移不变性和物体检测中的平移可变性的问题,可自然地采用全卷积图像分类器骨干网进行物体检测,以 101 层残差网络 (ResNet) 在 PASCAL VOC 数据集上取得 83.6% mAP 的竞争性结果,测试时间为每张图像 170ms,比 Faster R-CNN 快 2.5-20 倍。
May, 2016
该研究介绍了使用递归的几何感知神经网络,将一个场景的多个视图中的视觉信息整合到 3D 潜在特征张量中,并直接使用构建的 3D 特征存储器进行物体检测、物体分割和 3D 重建。
Nov, 2018