如何在有限的样本和计算资源上训练出点目标导航智能体
本论文通过使用自监督的辅助任务(例如,预测两个自我中心观察之间采取的动作,预测轨迹中两个观察之间的距离等),并使用注意力机制组合个任务得到的表示向量,成功地提高了 PointNav 任务的样本和时间效率,超过了以前的最新研究成果,并在 40M 帧时将 DD-PPO 的性能提升了 0.16SPL。
Jul, 2020
本研究使用实际噪声模型和视觉里程法,改进了 Habitat PointNav 基准中 PointGoal 导航任务的成功率,成功率从 64.5% 提高到 71.7%,速度提高了 6.4 倍。
Aug, 2021
本文介绍了一种基于视觉位移估计和任务特定导航策略的点目标导航代理,该代理可适应嘈杂的传感器和动作动态,并在 CVPR 2020 Habitat Challenge 的 PointNav 跟踪中获得亚军。
Sep, 2020
该论文在复杂的 3D 环境中,通过设计以 “batch simulation” 为原则的 3D 渲染器和模拟器来加速基于深度强化学习的训练,使用单个 GPU 每秒获得超过 19,000 帧的经验,并在单个 8-GPU 机器上每秒获得最高达 72,000 帧的经验,同时维持任务的高性能并通过增加大型 mini-batches 的样本效率,在 1.5 天内使用单个 GPU 训练 PointGoal 导航代理以达到 64-GPU 集群上训练的代理的 97%准确度。
Mar, 2021
在 Matterport 3D 等实景环境中,通过实例化大规模导航任务,我们研究了利用 3D 点云或 RGB 图像或它们的组合进行导航的方法,发现前进或随机这两种相对简单的导航方法强且难以超越,同时点云对于学习避免障碍提供了更丰富的信号。我们发现一种称为变曲点权重技术对于用于行为克隆的循环模型训练导航非常重要,并且能够使用此技术胜过基线。这一结果为继续研究基于 3D 深度学习模型的体式导航提供了动力。
Apr, 2019
本文提出了一种基于二个子策略的框架,即 角落导向探索策略 和 类别感知识别策略,用于提高基于 3D 场景表示的目标导航能力,从而大大改善 ObjectNav 的性能,并在 Matterport3D 和 Gibson 数据集上实现最佳表现,同时训练时的计算成本较其他模块化方法降低了 (高达 30 倍)。
Dec, 2022
介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法,用于在资源密集型模拟环境中训练虚拟机器人进行导航,实现了近乎线性的扩展,通过训练并转移场景理解和导航策略,方法实现了身体智能上的图像预训练加特定任务微调。
Nov, 2019
本文提出了一种机器人导航系统,采用模仿学习框架在复杂环境下成功导航,使用 RGB 和深度 (RGBD) 信息,可以应对大型环境和多个房间及未知目标的导航,相较于多个基准测试具有更好的性能。
Sep, 2019
提出了一种基于占用状态预测的导航方法,该方法利用了车辆自身的 RGB-D 观察结果来推断不可见区域的占用状态,进而加快了车辆的空间认知,提升了在 3D 环境中的探索和导航效率。在 Gibson 和 Matterport3D 数据集上,该方法在顺序决策任务中表现优于 state-of-the-art 方法,是 2020 Habitat PointNav 挑战赛的获胜者。
Aug, 2020
提出了一种名为 SLING 的新方法,致力于通过使用神经描述符和简单而有效的切换来改进现有的图像目标导航系统,在图像目标导航基准测试中取得了很大的成功,从而将成功率从 45%提高到 55%。
Nov, 2022