FISHING Net:在网格中推断语义热力图的未来
本文提出并评估了一种新型架构,该架构生成一种自我中心的,基于网格的,预测性和语义可解释的环境表示。通过多个相机流的空间 - 时间融合,深度编码器 - 解码器网络被训练来将这些视图融合为一个统一的语义网格表示,并预测其周围环境的动态。
Mar, 2019
本研究提出了一种多尺度 LiDAR 辅助透视变换神经网络,利用点云信息将图像特征投影到俯视图中,从而在大幅度提升语义网格生成方面取得了实质性的进展,实现了 25FPS 的实时性能。
Feb, 2023
本文提出了一种融合了激光雷达和相机信息的语义栅格生成架构,即 LiDAR-Aided Perspective Transform Network(LAPTNet),通过使用 LiDAR 点云的 3D 信息,LAPTNet 能够将相机平面中的特征与鸟瞰图中的特征相匹配,而无需预测场景深度信息,相较于最先进的仅使用相机的方法,在 NuScenes 数据集验证集中,LAPTNet 对于所提出的类别比竞争方法的改进高达 8.8 个点(或 38.13%)。
Nov, 2022
本研究为了实现自主系统对未来的实时预测,将挑战性的语义预测任务分解为两个子任务:当前帧的分割和未来光流的预测,并通过引入流预测网络和特征 - 流聚合 LSTM 层以及可端到端学习的扭曲层来构建高效、有效、低开销的模型,最终实现在短期和移动对象语义预测方面的最新精度,并将模型参数降低了高达 95%,效率提高了 40 倍以上。
Sep, 2018
使用卷积神经网络和密集同时定位和建图(SLAM)系统来将视觉感知转化为语义映射,实现在室内 RGB-D 视频帧之间的长期稠密对应以及在多个视点上的概率融合,从而生产有用的 3D 语义地图。
Sep, 2016
本文提出了一种基于三维激光雷达测距扫描和神经网络对语义信息进行提取的建图及定位方法,实现了对运动物体的有效滤波和语义信息约束下的扫描匹配,与现有基于几何约束的方法相比,实验结果表明其性能更优。
May, 2021
该论文介绍了一个基于循环神经网络的新型端到端框架,用于在复杂、动态且仅部分可观测的现实环境中跟踪和分类机器人的周围环境,并通过少量标记的数据使网络精通语义分类任务。
Apr, 2016
本文介绍了一种新的任务,即预测未来帧的语义分割,并研发了一种基于自回归卷积神经网络的方法。该方法针对城市街景数据集进行了试验,结果表明,直接预测未来的分割比预测并分割未来的 RGB 帧要好得多,并且可信度更高。
Mar, 2017
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。
Apr, 2019
提出一种基于 RGBD 重建和语义分割的机器人操作主动理解未知室内场景的新方法,利用离线估计的离散视野分数场来驱动机器人的勘探扫描,结合基于体素的实时语义标注,优化遍历路径和相机轨迹,从而实现高效准确的在线场景解析。
Jun, 2019