该论文的研究重点为从单目 RGB 图像中估算房间布局,采用端到端可训练的编码 - 解码网络 RoomNet 直接估算有序的房间布局关键点,实现了与最新工作相比 200-600 倍的加速和最新的性能。
Mar, 2017
该研究提出了一种基于变分自编码器的语义表示方法,实现了对三维语义地图的实时增量建立与空间一致的语义标签融合,可以用于单目关键帧语义映射系统,并能够实现对位姿、几何和语义的联合优化。
Mar, 2019
该研究使用单目摄像头的弱立体视觉信息,通过变分编码器 - 解码器网络实现了从前视图到鸟瞰图的语义度量占用栅格地图学习,并优于传统方法,在城市街景数据集上 mean IoU 提升 12% 以上,并实现了对未见数据的鲁棒性和实时推理速度。
Apr, 2018
该研究探索了半监督学习和三维室内布局重建的交叉领域,提出了使用标记和未标记数据学习房间角和边界表示的方法,利用 360 度全景场景实现了改进的室内布局估计。实验结果表明,该方法同样精准,仅需使用 12%的标记数据。这项工作是实现使用有限标记数据进行三维感知的强大半监督布局估计的重要第一步。
Mar, 2021
本文提出并评估了一种新型架构,该架构生成一种自我中心的,基于网格的,预测性和语义可解释的环境表示。通过多个相机流的空间 - 时间融合,深度编码器 - 解码器网络被训练来将这些视图融合为一个统一的语义网格表示,并预测其周围环境的动态。
提出了一种新的,综合了外观和语义信息的 2D VL 定位方法,该方法使用多模态线索生成稳健的嵌入向量,其中利用了场景的语义布局的不变性,并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程,在三个具有挑战性的本地化数据集上测试,平均绝对提高了 19%,并且通过对模型各个组件进行广泛研究,证明了语义信息和注意模块的贡献。
Dec, 2018
通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计,提出了一种半监督的深度估计方法,结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。
Oct, 2018
提出了一种新颖的 ECGAN 用于具有挑战性的语义图像合成任务,通过使用边缘作为中间表示,并采用注意力引导的边缘传输模块进行图像生成,设计了一个有效的模块来选择性地突出显示根据原始语义布局的类依赖特征图,通过对比学习方法和多尺度对比学习方法,强化了同一语义类别的像素嵌入生成更相似的图像内容,并利用多个输入语义布局的标记像素结构来明确地探索更多的语义关系。
Jul, 2023
该研究提出了一种新方法,通过单个单目 RGB 图像高效估计房间的空间布局,基于语义分割构建了一个鲁棒的、准确的和高效的假设和测试方案,用于估计房间的角落和布局。
Oct, 2019
本文介绍一种新策略,通过边缘检测和翻转截断有符号距离来在 3D 空间中编码颜色信息,同时提出了 EdgeNet,一种能够处理深度和边缘信息的新型端到端神经网络结构,实验结果表明该方法相比现有技术在真实数据上提高了 6.9 % 的性能表现。
Aug, 2019