- 基于学习的语义地图构建与鲁棒摄像机定位
介绍了一种使用语义特征的视觉惯性里程计系统 SemanticSLAM,可以在室内环境中进行可靠的相机定位,改善位姿估计并生成语义地图,可用于路径规划、避障和机器人导航等下游任务。
- CIMGEN:有限数据下基于预训练生成模型的受控图像操纵
提出的方法通过修改语义图像来灵活地生成和编辑图像,利用预先训练的图像到图像转换 GAN 进行改进,并展示了在图像伪造和图像编辑领域中的性能和应用,以及对抗深度学习图像取证技术的有效性和开发鲁棒且可推广的图像取证工具的紧迫需求。
- VioLA:将视频与 2D LiDAR 扫描对齐
研究通过建立语义地图和利用图像序列与 LiDAR 扫描进行地点对齐的问题。提出了一种名为 VioLA 的方法,在固定高度提取用于注册到 LiDAR 地图的点。使用预训练的文本到图像修复模型和深度补全模型填补缺失的场景内容以支持姿态注册。在两 - 多样化的语义图像编辑与风格编码
本研究提出了一个框架,能够以一种新的机制对可见和部分可见的对象进行编码,以实现样式编码和最终生成之间的一致性。通过与以前的条件图像生成和语义图像编辑算法进行广泛比较,我们的实验表明,我们的方法在技术上显著改进。我们的方法不仅在定量结果上取得 - 减量化、再利用、回收利用:模块化多物体导航
本文研究了多目标导航任务,通过四个模块(物体检测、语义地图构建、环境探索和导航)来解决此任务。结果表明,在 MultiON 任务中,采用 PointGoal 导航模型优于从头开始学习导航。与分析路径规划相比,基于 Agent 的导航模块表现 - 使用数据正则化 Q-Learning 进行目标导航
该研究使用深度强化学习方法,通过增量构建语义地图和选择长期目标来实现目标导航,并通过数据增强和 Q 函数正则化等方法明显提高了模型性能。
- VectorMapNet: 端到端的矢量高精度地图学习
本研究提出了一个名为 VectorMapNet 的端到端矢量化高清地图学习管道,它可以利用传感器观测数据预测出鸟瞰图中稀疏的折线。该管道可以明确地建模地图元素之间的空间关系,并生成对自主驾驶任务友好的矢量化高清地图。实验表明,VectorM - ICLRFILM: 采用模块化方法遵循语言指令
提出了一种使用语义地图和语义搜索策略实现自然语言目标的模块化方法,不需要使用专家轨迹和低级语言指令,并使用少量数据取得了 SOTA 性能。同时,该研究表明,显式的空间记忆和语义搜索策略可以为状态跟踪和引导提供更强大和更通用的表示方式,即使没 - CVPR学习语义感知动态视频预测
该研究提出了一种架构和训练方案,通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。
- CVPRLaPred: 车道感知的动态代理多模态未来轨迹预测
本文提出了一种新的预测模型 LaPred,利用语义地图中提取的车道实例来预测多模态的未来轨迹,通过自监督学习任务识别可能由目标车辆跟随的车道实例,并产生比基于 2D 光栅图像的方法更好地符合周围环境的轨迹,实验表明该模型在公共 nuScen - 生成视角合成:从单视角语义到新视角图像
本文提出一种叫做 GVS 的方法,可基于输入的语义地图,综合出多个真实感的场景视角,还可进行风格操作和图像编辑操作,如通过简单处理输入的风格图像和语义映射来添加或删除对象等。
- ECCV通过 SegVAE 进行可控图像合成
SegVAE 是一个基于变分自编码器的条件图像生成网络,快速合成逼真的语义地图,为各种图像处理、编辑应用提供了良好的基础。
- CVPR基于级联语义引导的多通道关注选择生成对抗网络用于跨视角图像翻译
本文提出了一种名为多通道注意力 SelectionGAN 的新方法,该方法可以基于场景图像和新颖的语义地图生成任意视点中自然场景图像,并通过注意力机制和像素损失优化,经过 Dayton,CVUSA 和 Ego2Top 数据集的实验验证,该方 - 沿途风景:视频游戏的自动探索
研究表明,现成的自动勘探策略可以与人类游戏玩家在相同时间尺度上实现相同的效果,为探索游戏状态空间和提取语义地图等应用贡献了通用方法。
- 使用模仿学习在仿真四旋翼上跟随高水平导航指令
本文提出了一种基于神经网络和语义地图的导航模型,能够实时地将高层次的导航指令映射到连续的低层次速度指令上,通过改进的 DAgger 算法进行训练和测试,并通过学习到的语义地图实现了解释性强的指令跟随模型。
- Gov2Vec: 学习机构及其法律文本的分布式表示
使用唯一向量空间嵌入法比较不同机构之间的政策差异,发现各机构之间存在有意义的差异,并使用文法向量回答具体问题,正在扩展为更综合的法律语义地图。