智能无需复位强化学习中的切换
提出一个能够在解决真实世界中很多挑战的同时,通过学习 ' 重置技能 ' 来帮助代理人更有效地学习技能的通用博弈形式方法,并实验表明该方法可以显著提高代理人的表现和加速后续学习。
Nov, 2020
提出了一种重置免费的强化学习算法,将重置免费 RL 转化为两个玩家的博弈,以达到次线性性能失误和次线性重置总数。此外,提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。
Jan, 2023
本文提出一种具有自适应性的算法,使得现有的强化学习代理可以在机器和人类代理之间进行控制转换,在类似环境中可以找到多个转换策略序列,并演示了该算法在半自动驾驶场景中具有优越性。
Feb, 2020
提出了一种新颖的自主强化学习算法,能够根据智能体的学习进展生成自适应课程,使智能体能够高效地解决稀疏奖励迷宫导航任务,同时减少了手动复位。
Nov, 2023
通过实验证明 CRL 中的负迁移问题无法通过最近的一些减轻 RL 损失的研究成果来有效解决,所以我们提出了 Reset & Distill (R&D) 方法来克服 CRL 中的负迁移问题,该方法通过重置代理的在线演员和评论网络以学习新任务,并进行离线学习来从在线演员和前一个专家的动作概率中提取知识,我们在 Meta-World 任务的长序列上进行了大量实验,并表明我们的方法始终优于最近的基线,在一系列任务中实现了显著更高的成功率,我们的发现强调了在 CRL 中考虑负迁移的重要性,并强调了像 R&D 这样的强大策略来减轻其不利影响。
Mar, 2024
采用最优输运的思想,我们对离线强化学习中的政策切换问题进行了系统研究,并设计了一种新颖的切换公式的 Net Actor-Critic 算法,数值实验证实了我们方法在多个 Gymnasium 基准测试上的效率。
Jul, 2024
本文提出了一种基于多任务强化学习算法的重置自由学习方法,可用于实现机器人的复杂困难操作,无需人工干预,实验表明该方法可以有效缩放复杂的问题并实现机器人的技能多样化。
Apr, 2021
使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的 MDPs 的有效学习和可追溯性,同时利用 RVFS 算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。
Apr, 2024