- COLING基于语义地图的导航指令生成
我们提出了一种使用语义地图作为视觉输入的图像字幕任务的导航指令生成新方法,并发布了使用语义地图的指令生成基准数据集和初步模型。
- CVPRGSNeRF: 增强的通用语义神经辐射场与 3D 场景理解
使用多视图输入合成新视图图像,神经辐射场(NeRF)已成为三维视觉中的热门研究课题。本文提出了一种具有一般化语义神经辐射场(GSNeRF)的方法,该方法独特地将图像语义纳入合成过程中,从而能够对未见场景生成新视图图像和相关的语义地图。我们的 - 基于基础模型的复杂机器人指令可验证跟随
使机器人能够遵循复杂的自然语言指令是一个重要而具有挑战性的问题。我们提出了一种名为 LIMP 的方法,利用基础模型和时间逻辑生成以指令为条件的语义地图,使机器人能够验实地遵循具有开放词汇和复杂时空约束的丰富和长期的指令,并构建了一种可解释的 - GNeSF:泛化的神经语义场
基于神经隐式表示的 3D 场景分割方法,通过多视图图像特征和语义地图作为输入,采用软投票机制来聚合来自不同视图的二维语义信息,结合视角差异信息预测投票分数,通过可见性模块筛选掉遮挡视图的有害信息,在只有二维语义监督的情况下,能够综合合成语义 - 使用语义地图监督学习导航视觉表征
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航 - CVPR自主驾驶的神经地图先验
本研究提出了一种名为 NMP 的神经网络结构,能够自动更新全局地图并改善局部地图推理性能,实现了全局地图先验的初步学习。实验表明,该框架对各种地图分割和检测架构具有高度兼容性,并且即使在恶劣天气条件和较长的预测时间跨度内,也能显著增强地图预 - 寻找前进的方向:以语言为导向的语义地图导航器
本文介绍了地图 - 语言导航任务,引入了基于给定三维语义地图的自然语言指令的路径规划和区分模型 (iPPD),并提出了适用于语义地图的新型路径特征编码方案和基于注意力机制的语言驱动鉴别器,相较于单步贪婪决策方法和单步模仿学习方法,在未知环境 - CVPR基于潜力函数的无交互学习的目标导航
该研究提出了基于无交互学习的潜在函数的模块化方法,旨在解决物体目标导航的计算资源和时间成本问题。通过训练预测两个互补潜在函数的网络,方法可以在不与环境交互的情况下决定何时寻找看不见的物体,进而实现 ObjectGoal 导航,证明该方法能够 - Panoptic Multi-TSDFs:在线多分辨率体积建图和长期动态场景一致性的灵活表示
本研究提出了一种新的体积多分辨率建模方法,可以有效地处理大型动态环境中的机器人和其他代理之间的交互,并保持其语义一致性和准确性。
- 主动语义目标导航的映射学习
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
- 基于强化学习的任务驱动语义编码
本文介绍了一种基于深度神经网络编解码器的任务驱动语义编码方案,通过使用强化学习和马尔科夫决策过程实现了基于任务的语义编码,实验结果表明与 H.265/HEVC 相比,该方案可以节省 34.39% 到 52.62% 的比特率。
- 基于视觉光流蒸馏的自动驾驶端到端可解释运动规划学习
该研究提出了一种基于端到端视觉的自主驾驶轨迹规划方法,使用生成的鸟瞰图中的未来语义地图进行路径规划,增强了自动驾驶的安全性和解释性。
- 看见不可见:为房间导航学习语义图
使用学习方法,结合语义地图进行室内导航,预测超出视野范围的置信度地图和目标点,模型可根据建筑模式和风格规律在新环境中进行导航,将房间导航任务简化为点导航可提高性能。
- DeepSEE: 深度去耦合语义探索极端高清晰度
本研究提出了一种探索性人脸超分辨率框架 DeepSEE,它是第一种利用语义地图的方法,可以控制语义区域及其外观,并允许广泛的图像操作,通过在人脸上进行最多 32 倍的放大,验证了 DeepSEE 的有效性。
- INTERACTION 数据集:一个具有语义地图的国际交互式驾驶场景中的对抗与合作的动作数据集
本文提出一个交互式驾驶场景中带有语义地图的国际性对抗合作运动数据集(INTERACTION 数据集),包括多样的驾驶场景、不同文化的驾驶行为、交互式和复杂的行为等特点,可支持运动预测、行为建模等多项研究领域。
- CVPR路规:使用语义交互的卷积模型预测驾驶行为
这篇论文提出了一种基于深度卷积模型的统一表征方法,该方法在使用 3D 感知信号和语义地图的基础上,通过深度卷积模型,学习了实体和场景之间的交互,并能够有效地预测自动驾驶系统中实体的行为表现。
- FoveaBox:超越基于 Anchor 的目标检测器
本文提出了 FoveaBox 框架,一种准确,灵活且完全无锚点的物体检测方法,通过预测类别敏感的语义图和每个位置的类别不可知的边界框,避免与锚相关的计算和超参数问题。与所有先进的物体检测器不同,FoveaBox 可以直接学习物体的存在可能性 - AAAI学习用于概率语义地图的图结构求和 - 乘积网络
介绍了一种名为图结构和积网络的概率方法,可用于机器人领域的结构预测问题,演示了该方法如何通过处理机器人在大规模办公空间中的嘈杂拓扑关系来提高关于语义概念描述的推断,并显示 GraphSPNs 始终优于传统基于无向图模型的方法。