学习弥合差距：通过规划和强化学习实现高效的新颖性恢复

Sep, 2024

学习弥合差距：通过规划和强化学习实现高效的新颖性恢复

Learning to Bridge the Gap: Efficient Novelty Recovery with Planning and Reinforcement Learning

Alicia Li, Nishanth Kumar, Tomás Lozano-Pérez, Leslie Kaelbling

TL;DR本研究解决了自主机器人在复杂环境中应对新颖情况的决策问题。通过引入一种“桥接策略”，利用强化学习快速适应环境变化，提高了模型在长时间跨度任务中的效率和灵活性。实验表明，该方法比传统的强化学习基线更快速有效，并且具有良好的可推广性，能与规划方法结合，处理更复杂的任务。

Abstract

The real world is unpredictable. Therefore, to solve long-horizon Decision-Making problems with Autonomous Robots, we must construct agents that are capable of adapting to changes in the environment during deploy

发现论文，激发创造

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了DDPG和HER算法，提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和RL算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

PRM-RL: 结合强化学习与采样规划的长程机器人导航任务

PRM-RL是一种利用采样路径规划结合强化学习实现远程导航的分层方法，其中RL代理通过学习短距离点到点导航策略，采用面向特征和深度神经网络及PRMs进行构建，并通过采样计划器提供的规划路径实现机器人的控制。PRM-RL的应用结果表明，在室内和城市环境下，比起单独使用RL代理或传统的采样路径规划方法，PRM-RL实现了任务完成度的显著提升，在噪声传感器条件下成功完成长达215米的轨迹，且实现了对1,000米长的空中货运的无违约任务达成。

Oct, 2017

中继策略学习：通过模仿和强化学习解决长时间间隔任务

本文提出了一种中继策略学习的方法，可用于模仿和强化学习，旨在解决多阶段、长视程机器人任务，包括模仿学习阶段和强化学习阶段，通过学习目标条件分层策略和使用新颖的数据重新标记算法简化了政策学习问题，并证明了该方法在挑战性的厨房模拟环境中解决多阶段、长视程操作任务的有效性。

Oct, 2019

学习恢复区的安全强化学习（Recovery RL）

本文提出了一种名为 Recovery RL 的算法，它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性，并在六个仿真领域和一个物理机器人上进行了试验，证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。

Oct, 2020

将世界模型视为图：学习用于规划的潜在地标

该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q-函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Nov, 2020

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

通过想象的子目标进行目标导向强化学习

本研究提出了一种将想象中的子目标融入策略学习中的方法，以促进解决需要更复杂的任务，并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。

Jul, 2021

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022

RAPid-Learn: 开放世界环境下学习恢复处理新奇性的框架

提出了RAPid-Learn算法：一种混合规划和学习的方法，能够在智能体环境中出现突然和意外的变化时，即时解决任务中的Markov决策过程修正问题，有效地应对多样的新颖性，并且更加高效、鲁棒、与符号规划方法和传统基于转移学习的强化学习方法相比更加具有优势。

Jun, 2022

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用2倍样本，比模型自由方法少用200倍样本。

Oct, 2022