该研究探讨了利用空间上下文作为丰富的视觉表征的监督信号的方法。通过从每个图像中提取随机配对的路径来训练卷积神经网络,用于预测第二个路径相对于第一个路径的位置,从而实现对目标的识别,并证明该方法在性能上优于其他算法。
May, 2015
该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标,提出一项包含 290k 多选题的新数据集 VCR,并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络(R2C),该文章对计算机视觉模型的性能进行了分析,并提出未来研究的方向。
Nov, 2018
提出一种基于卷积神经网络的 Region Proposal 方法 R-CNN,它与 CNN 结合起来使用更高的上下文信息,加上有监督的预培训方法,实现了在 PASCAL VOC 2012 数据集上的平均准确率 mAP 达到 53.3%。
Nov, 2013
本研究介绍了一种从未标记的视频中进行无监督学习的新方法,通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体,并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。
Dec, 2016
本文提出了一种综合局部外观特征,对象关系的上下文信息和全局场景上下文特征的集合物体检测系统,该系统采用基于对象建议的完全连接条件随机场(CRF)进行建模,并利用快速平均场近似方法有效地进行 CRF 模型中的推理,实验结果表明,与基线算法 Faster R-CNN 相比,我们的方法在 PASCAL VOC 2007 数据集上实现了更高的平均精度(mAP).
Apr, 2016
通过利用场景和时下流行的深度学习模型 RCNN 的多区域分类法,作者提出了一种新颖的基于动作的行为识别系统 R*CNN,它不仅可以在 PASAL VOC Action 数据集上实现 90.2% 平均精确率, 超过了同领域其他方法,而且还能在 Berkeley Attributes of People 数据集上实现最新最好的人物属性分类效果。
本文提出一种基于卷积神经网络和语义分割的目标检测系统,利用迭代定位机制,通过高效运用模块来检测物体,并在 PASCAL VOC 数据集上获得了比其他方法更高的检测精度。
本文提出了在成功的卷积神经网络 - 循环神经网络方法中加入高级概念的方法,并证明其在图像字幕和视觉问答中取得了显著的改进。 该机制还可用于合并外部知识,特别是允许在图像中回答有关内容的问题,即使图像本身不能提供完整答案。
Mar, 2016
这篇论文介绍了一种叫做 V-CNN 的新方法,它利用数据可视化辅助卷积神经网络(CNN)对图像进行处理,并将其应用到网络入侵检测问题,得到了比传统方法更好的结果。
Jun, 2018
通过人类视觉传递的信息流作为灵感,提出了一种基于 CNN 的特定目标检索方法,将注意力放在感兴趣的区域上可以显著提高检索的准确性,并且使用新颖的显着性度量对区域进行加权,进一步提高了检索的准确性。
Mar, 2017