智能无需复位强化学习中的切换

ICLRMay, 2024

Intelligent Switching for Reset-Free RL

Darshan Patil, Janarthanan Rajendran, Glen Berseth, Sarath Chandar

TL;DR重置、强化学习、代理、算法、无重置强化学习。

Abstract

In the real world, the strong episode resetting mechanisms that are needed to train agents in simulation are unavailable. The \textit{resetting} assumption limits the potential of →

resetting reinforcement learning agent algorithm reset-free rl

发现论文，激发创造

基于重置游戏的控制基元继续学习技能发掘

提出一个能够在解决真实世界中很多挑战的同时，通过学习 ' 重置技能 ' 来帮助代理人更有效地学习技能的通用博弈形式方法，并实验表明该方法可以显著提高代理人的表现和加速后续学习。

Nov, 2020

可证明的无需重制强化学习算法

提出了一种重置免费的强化学习算法，将重置免费 RL 转化为两个玩家的博弈，以达到次线性性能失误和次线性重置总数。此外，提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。

Jan, 2023

无痕迹：学会重置以实现安全和自主的强化学习

本文提出了一种可以同时学习前向策略和清除策略的自动化安全有效的强化学习方法，可以显著减少手动重置，减少不安全的动作，并能自动诱导课程。

Nov, 2017

机器与人类交替学习

本文提出一种具有自适应性的算法，使得现有的强化学习代理可以在机器和人类代理之间进行控制转换，在类似环境中可以找到多个转换策略序列，并演示了该算法在半自动驾驶场景中具有优越性。

Feb, 2020

自主训练自动驾驶车辆的自主算法

基于强化学习的自主车辆训练算法，最小化人为干预，通过学习进展实时调整训练过程，安全地重置车辆状态，取得更好的驾驶性能和较少的人工重置。

May, 2024

无任务特定知识的自主强化学习自我监督课程生成

提出了一种新颖的自主强化学习算法，能够根据智能体的学习进展生成自适应课程，使智能体能够高效地解决稀疏奖励迷宫导航任务，同时减少了手动复位。

Nov, 2023

重置与精炼：克服连续强化学习中的负迁移的方法

通过实验证明 CRL 中的负迁移问题无法通过最近的一些减轻 RL 损失的研究成果来有效解决，所以我们提出了 Reset & Distill (R＆D) 方法来克服 CRL 中的负迁移问题，该方法通过重置代理的在线演员和评论网络以学习新任务，并进行离线学习来从在线演员和前一个专家的动作概率中提取知识，我们在 Meta-World 任务的长序列上进行了大量实验，并表明我们的方法始终优于最近的基线，在一系列任务中实现了显著更高的成功率，我们的发现强调了在 CRL 中考虑负迁移的重要性，并强调了像 R&D 这样的强大策略来减轻其不利影响。

Mar, 2024

离线强化学习中的均衡策略切换：切换还是不切换？

采用最优输运的思想，我们对离线强化学习中的政策切换问题进行了系统研究，并设计了一种新颖的切换公式的 Net Actor-Critic 算法，数值实验证实了我们方法在多个 Gymnasium 基准测试上的效率。

Jul, 2024

多任务学习实现免重置强化学习：无需人类干预即可学习灵巧操作行为

本文提出了一种基于多任务强化学习算法的重置自由学习方法，可用于实现机器人的复杂困难操作，无需人工干预，实验表明该方法可以有效缩放复杂的问题并实现机器人的技能多样化。

Apr, 2021

在线强化学习中的复位的力量

使用局部模拟器访问（或本地规划）的在线强化学习协议探索了模拟器在高维度域中的力量，并通过一个计算效率低的算法取得了具有低覆盖性的 MDPs 的有效学习和可追溯性，同时利用 RVFS 算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。

Apr, 2024