室内场景识别的语义引导上下文建模
该研究使用语义信息建立了 “语义区域关系模型”(SRRM),并将其与 PlacesCNN 模块相结合,在 MIT Indoor 67,reduced Places365 数据集和 SUN RGB-D 等数据集上展示了显著的性能优势。
May, 2023
该论文提出了一种基于多模式 CNN 的场景识别新方法,结合图像和上下文信息,通过注意力机制来强化学习和增强场景的辨别能力,实验证明该方法性能超过所有现有的先进方法,并显著减少了网络参数。
Sep, 2019
利用深度学习方法和语义信息,本文提出了一种新颖的室内场景分类方法,通过目标检测和语义分割技术获取语义信息,进一步提取基于 Hu 矩的分割类别形状特征,并使用全局特征、目标特征和语义分割特征构建了一个三分支网络,即 GOS2F2App。在 SUN RGB-D 和 NYU Depth V2 两个基准数据集上评估了 GOS2F2App,取得了最先进的结果,证明了该方法的有效性。
Apr, 2024
本文提出了 SCNet,一种基于卷积神经网络的语义对应的几何合理模型,利用区域提议实现匹配原语,并明确将几何一致性纳入其损失函数中,该方法在多项基准测试中均表现优异。
May, 2017
本文提出了一个空间和语义调制的深度网络框架,用于共同分割多个相关图像中的共享对象。该模型通过使用骨干网络提取多分辨率的图像特征,并通过非监督学习捕获图像特征描述符之间的相关性。使用监督图像分类任务来模拟语义调制器,并使用层次二次池化模块转换图像特征,以集中于共同对象区域的分割。结果表明,该模型在四个图像共分割基准数据集上的表现优于现有的最先进方法。
Nov, 2019
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
本文介绍一种有效的方法,通过聚合来自最相关的图像区域的上下文感知特征及其在区分细粒度类别中的重要性来捕获细微变化,避免边框和 / 或可见部分注释,并通过自我关注和图形神经网络的最新进展来包括一种简单而有效的关系感知特征变换及其在端到端学习过程中的性能评估。评估了我们的模型,发现其在八个细粒度对象和人类对象交互数据集上的识别准确性显著优于现有技术。
Sep, 2022
本文提出了一种新的时空记忆网络 (Spatial Memory Network) 框架,其中空间记忆将目标实例聚合回代表简单 “图像” 的伪图像表示,易于输入到另一个 ConvNet 中进行目标间上下文推理,使得目标检测性能提高了 2.2%。
Apr, 2017
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
本文介绍一种模型语境感知的深度神经网络,该模型利用 LSTM 单元结合物体提议来捕捉物体和场景之间的关系,并且通过对学习到的特征进行可视化和分析,证明了模型具有很好的语境建模能力。
May, 2017