该论文提出了一种基于多模式 CNN 的场景识别新方法,结合图像和上下文信息,通过注意力机制来强化学习和增强场景的辨别能力,实验证明该方法性能超过所有现有的先进方法,并显著减少了网络参数。
Sep, 2019
该研究提出了一种具有分层分类器的卷积网络,用于每像素的语义分割,能够在多个异构数据集上进行训练和利用它们的语义层次结构。
Mar, 2018
本文提出了一种通用的半监督语义分割框架,旨在在各种应用领域实现更低的注释和部署成本,并通过像素感知熵正则化的特征对齐目标来最小化有监督以及无监督损失,以实现在多个领域中都能使用单一模型,利用少量标记实现性能提升,同时可以处理不同领域的标签空间不同的问题。
Nov, 2018
本研究提出了一种基于图神经网络的半监督学习方法,通过多次无监督的一致性优化,利用集成学习策略在多个视觉场景解释中实现多任务同时学习的高精度预测表现。
Oct, 2020
本文针对自主行驶场景下的语义分割问题进行了调研,从模型开发、RGB-D 数据集集成、时域信息模型三个方面讨论了目前最相关和最新的深度学习方法,旨在为读者提供关于这一激动人心和具有挑战性的研究领域的最新进展。
Mar, 2023
我们提出了一个新的训练框架,用于解决 Heterogeneous Training of Semantic Segmentation (HTSS) 问题,可以同时训练多个具有不同标签空间和标注类型的数据集,以提高 Semantic Segmentation 在性能、泛化和可识别的语义概念等方面的表现。
Jan, 2023
本文提出了一种端到端模型,可以仅依靠单个 RGB 图像实时同时解决 3D 室内场景理解中的物体边界框、房间布局和相机姿势问题,并通过对目标进行参数化和协同训练等手段,显著提升了 3D 物体检测、3D 布局估计、3D 相机姿势估计和整体场景理解的精度。
Oct, 2018
提出基于全局推断的标签库(LabelBank)框架,通过视觉提示、属性和 / 或文本描述来提取全局概念,以改善语义分割性能。在各种设置下,用该框架得到的 LabelBank,相比于局部信息,可以更好地描述对象的详细形状,进而提高语义分割的准确性。
Mar, 2017
深度感知全景分割是计算机视觉中的新兴话题,结合了语义和几何理解,以实现更稳健的场景解释。我们提出了一种深度统一框架,用于深度感知全景分割,通过相同的对象查询以分段方式执行联合分割和深度估计。为了缩小两个任务之间的差距,我们进一步设计了一种几何查询增强方法,利用潜在表示将场景几何集成到对象查询中。此外,我们提出了一种双向引导学习方法,通过利用它们的相互关系来促进跨任务特征学习。我们的方法在 Cityscapes-DVPS 和 SemKITTI-DVPS 数据集上树立了深度感知全景分割的最新技术水平,并且我们的引导学习方法还在不完整监督标签下提高了性能。
Jul, 2023
在城市场景语义分割中,我们提出一种课程学习的方法来尽可能减小真实和合成数据之间的差距。该方法采用先易后难的策略,对全局标签分布和本地超像素标签分布进行先验知识的推断,并在此基础上训练语义分割网络。在两个数据集和两种 Backbone 网络上,我们的方法表现优于基线,并且进行了广泛的实验研究。
Dec, 2018