适应性策略学习用于附加任务

May, 2023

Adaptive Policy Learning to Additional Tasks

Wenjian Hao, Zehui Lu, Zihao Liang, Tianyu Zhou, Shaoshuai Mou

TL;DR本文提出一种名为 APG 的方法，结合 Bellman 最优原理和策略梯度方法，优化预训练策略以适应额外任务并保证收敛速率和样本复杂度，同时在多个数值模拟中表现良好。

Abstract

This paper develops a policy learning method for tuning a pre-trained policy to adapt to additional tasks without altering the original task. A method named adaptive policy gradient (APG) is proposed in this pape

policy learning adaptive policy gradient convergence rate sample complexity numerical simulations

发现论文，激发创造

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

加速策略梯度法：关于强化学习中的 Nesterov 动量

加速策略梯度（APG）是一种基于 Nesterov 加速梯度方法的强化学习（RL）算法，通过形式化证明 APG 在真梯度下以接近 1/t^2 的速度收敛，首次给出了 NAG 在 RL 背景下的全局收敛率，数值验证显示 APG 相比标准策略梯度能显著改善收敛行为。

Oct, 2023

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

无梯度策略架构搜索与自适应

通过梯度自由优化实现政策体系结构搜索和适应，可以学习执行自主驾驶任务。通过从演示和环境奖励中学习，开发了一个模型，可以学习相对较少的早期灾难性失败，并学习适当复杂度的体系结构，调整源领域中演示的政策以适应目标环境中获得的奖励，在逼真的模拟环境中学习驾驶，以提供比基线方法更安全的学习，降低累计崩溃指标。

Oct, 2017

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

基于因式策略的终身策略梯度学习：快速训练且不会遗忘

本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法，该方法可以直接训练终身函数逼近器，以便智能体在整个训练过程中从累积的知识中受益。本文表明，与单任务和学终身学习基线相比，我们的算法学习更快，收敛到更好的策略，并且在多种挑战性领域完全避免了灾难性遗忘。

Jul, 2020

抓取一切：将教师增强的策略梯度学习与实例分割相结合，抓取任意物体

交互抓取从杂乱环境中非常类似于人类灵巧度的问题中，是机器人学习中最久远的问题之一。我们提出了一种新颖的两阶段学习框架 —— 师傅增益策略梯度（TAPG），将强化学习和策略蒸馏相结合。通过训练一位师傅策略以掌握基于物体姿态信息的运动控制，TAPG 能够在基于物体分割的感觉运动策略上实现引导且适应性的学习。我们通过使用面向特定物体分割的 “Segment Anything Model” 从仿真环境零迁移到真实机器人环境。根据人类可理解的提示，我们训练出的策略能够在仿真和现实世界中熟练地从杂乱环境中抓取各种物体。此外，我们展示了对新物体的鲁棒零迁移。我们的实验视频可以在 https://maltemosbach.github.io/grasp_anything 上找到。

Mar, 2024

相位策略梯度

Phasic Policy Gradient (PPG) 是一种强化学习框架，通过将策略和价值函数训练分成两个不同的阶段来修改传统的在线策略演员 - 评论家方法，从而在保持各自优点的同时提高样本利用效率。

Sep, 2020