VER：基于策略的强化学习扩展导致在具身重组中出现导航

Oct, 2022

VER：基于策略的强化学习扩展导致在具身重组中出现导航

VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement

Erik Wijmans, Irfan Essa, Dhruv Batra

TL;DRVariable Experience Rollout (VER) is a reinforcement learning technique that scales on-policy learning in heterogeneous environments to many GPUs, leading to faster navigation and mobile manipulation tasks with surprising out-of-distribution generalization.

Abstract

We present Variable Experience Rollout (VER), a technique for efficiently scaling batched on-policy reinforcement learning in heterogenous environments (where different environments take vastly different times to

reinforcement learning heterogeneous environments navigation mobile manipulation scaling

发现论文，激发创造

在真实环境中使用混合策略进行多目标导航

我们提出了一种混合导航方法，将多对象导航（Multi-ON）任务分解为两个不同的技能：（1）使用经典 SLAM 和符号规划器处理航路点导航，而（2）使用结合监督学习和强化学习训练的深度神经网络处理探索、语义建图和目标检索，我们展示了该方法在模拟和真实环境中相对于端到端方法的优势，并超越了该任务的最先进技术。

Jan, 2024

零经验要求：语义视觉导航的即插即用模块化迁移学习

本研究提出了一种采用新型模块化迁移学习模型的视觉导航统一方法。该模型可以有效地利用从一个源任务积累的经验并将其应用于多个目标任务（例如，ObjectNav、RoomNav、ViewNav）以及具有各种目标模态（例如，图像、草图、音频、标签）的目标任务，同时实现了零点经验学习，这让模型可以在不接收任何任务特定的交互式训练的情况下解决目标任务。实验结果表明，与现有最优算法相比，我们的方法可以更快地学习，实现更好的泛化，并获得了明显的性能优势。

Feb, 2022

DD-PPO：利用 25 亿帧学习接近完美的目标点导航

介绍分布式强化学习的 Decentralized Distributed Proximal Policy Optimization (DD-PPO) 方法，用于在资源密集型模拟环境中训练虚拟机器人进行导航，实现了近乎线性的扩展，通过训练并转移场景理解和导航策略，方法实现了身体智能上的图像预训练加特定任务微调。

Nov, 2019

Sim-Real 联合强化迁移学习在 3D 室内导航中的应用

本文介绍了一种基于对抗特征调整模型的 3D 室内导航机器人训练方法，通过视觉特征的转换与行为策略的模仿来提高机器人在真实环境中的表现。实验证明该方法能够在不需要额外人工注释的情况下，比基线方法表现提高 19.47%。

Apr, 2019

离线视觉表示学习用于体感导航

本文提出一种名为离线视觉表示学习的方法，通过使用自监督学习在大规模图片数据上进行离线预训练，再在线微调特定任务中的视觉运动表示，并在多个数据集上进行了实验，发现该方法在图像导航和目标导航任务上均取得了显著的性能提升。

Apr, 2022

可扩展的多智体强化学习高性能模拟

本论文介绍了一种高性能代理基于模型的框架 ——Vogue，可以支持成千上万的互动代理的训练环境，此规模的高性能多智能体环境有望实现在复杂系统中建立灵活且健壮的策略。本研究展示了两个新开发的大规模多智能体训练环境的训练表现，并表明这些环境可以在几分钟甚至几小时的时间尺度上训练共享 RL 策略。

Jul, 2022

通过视觉重写规则学习可推广行为

本文提出了一种使用规则来捕获游戏动态的深度强化学习代理方法，该方法不使用神经网络，且在多个传统游戏中表现出优异的性能，极高的样本效率和强大的泛化能力。

Dec, 2021

使用反向经验回放方法对软性蛇形机器人的无模型强化学习

我们提出了一种新颖的技术 Back-stepping Experience Replay (BER)，它与任意的离线策略强化学习算法兼容。BER 旨在增强具有近似可逆性的系统的学习效率，减少对复杂奖励塑造的需求。该方法通过后退传递来构建反向轨迹以达到随机或固定的目标，并通过在学习过程中重复经验的提炼来解决后退传递中的不准确性问题。我们将 BER 应用于无模型的强化学习方法，用于软蛇机器人的运动和导航，软蛇机器人能够通过身体与地面之间的非均质摩擦而实现曲线运动。此外，我们还开发了一个动态模拟器来评估 BER 算法的有效性和效率，其中机器人成功学习（达到 100% 的成功率），并能够迅速到达随机目标，速度比最佳基线方法快 48%。

Jan, 2024

大规模预训练视觉表示在模拟和真实环境中的研究：我们从中学到了什么？

大规模实证研究表明预训练视觉表示（PVRs）的使用对训练执行现实任务的下游策略非常有用，尤其在操作和室内导航任务中表现出明显的性能优势。

Oct, 2023

视觉语言导航的模拟与实际转化

本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人，并提出了使用子目标模型和领域随机化等方法，以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验，结果表明，在提前采集和注释了占用图和导航图的情况下，模拟 - to - 真实的转移成功率可达 46.8%，而完全没有先前信息的情况下，转移成功率仅有 22.5%。

Nov, 2020