适应性策略学习用于附加任务
提出一种基于解析策略梯度法(APG)的控制方法来解决机器人系统控制问题,与 MPC 控制方法相比,该方法能够实现类似的轨迹跟踪性能,但计算时间要少一个数量级,在控制设计和优化领域有着极高的实际应用价值。
Sep, 2022
加速策略梯度(APG)是一种基于 Nesterov 加速梯度方法的强化学习(RL)算法,通过形式化证明 APG 在真梯度下以接近 1/t^2 的速度收敛,首次给出了 NAG 在 RL 背景下的全局收敛率,数值验证显示 APG 相比标准策略梯度能显著改善收敛行为。
Oct, 2023
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。
May, 2022
该研究提出了一种元学习方法,用于学习基于梯度的加强学习算法,即演化可微损失函数,以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明,与现成的策略梯度方法相比,所提出的演化策略梯度算法(EPG)在几个随机环境上实现了更快的学习,且其学习的损失可以推广到测试时间外的任务,并呈现出与其他流行的元学习算法截然不同的行为。
Feb, 2018
通过梯度自由优化实现政策体系结构搜索和适应,可以学习执行自主驾驶任务。通过从演示和环境奖励中学习,开发了一个模型,可以学习相对较少的早期灾难性失败,并学习适当复杂度的体系结构,调整源领域中演示的政策以适应目标环境中获得的奖励,在逼真的模拟环境中学习驾驶,以提供比基线方法更安全的学习,降低累计崩溃指标。
Oct, 2017
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020
本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法,该方法可以直接训练终身函数逼近器,以便智能体在整个训练过程中从累积的知识中受益。本文表明,与单任务和学终身学习基线相比,我们的算法学习更快,收敛到更好的策略,并且在多种挑战性领域完全避免了灾难性遗忘。
Jul, 2020
交互抓取从杂乱环境中非常类似于人类灵巧度的问题中,是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度(TAPG),将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制,TAPG 能够在基于物体分割的感觉运动策略上实现引导且适应性的学习。我们通过使用面向特定物体分割的 “Segment Anything Model” 从仿真环境零迁移到真实机器人环境。根据人类可理解的提示,我们训练出的策略能够在仿真和现实世界中熟练地从杂乱环境中抓取各种物体。此外,我们展示了对新物体的鲁棒零迁移。我们的实验视频可以在 https://maltemosbach.github.io/grasp_anything 上找到。
Mar, 2024
Phasic Policy Gradient (PPG) 是一种强化学习框架,通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员 - 评论家方法,从而在保持各自优点的同时提高样本利用效率。
Sep, 2020