具有次线性遗憾的终身强化学习安全策略搜索

May, 2015

具有次线性遗憾的终身强化学习安全策略搜索

Safe Policy Search for Lifelong Reinforcement Learning with Sublinear Regret

Haitham Bou Ammar, Rasul Tutunov, Eric Eaton

TL;DR开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法，通过在基准动态系统和四旋翼控制应用中验证，实现了终身策略搜寻的次线性遗憾。

Abstract

lifelong reinforcement learning provides a promising framework for developing versatile agents that can accumulate knowledge over a lifetime of experience and rapidly learn new tasks by building upon prior knowledge. However, current lifelong learning methods exhibit non-vanishing regr

lifelong reinforcement learning policy gradient learner adversarial setting safety constraints quadrotor control

发现论文，激发创造

基于因式策略的终身策略梯度学习：快速训练且不会遗忘

本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法，该方法可以直接训练终身函数逼近器，以便智能体在整个训练过程中从累积的知识中受益。本文表明，与单任务和学终身学习基线相比，我们的算法学习更快，收敛到更好的策略，并且在多种挑战性领域完全避免了灾难性遗忘。

Jul, 2020

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

带有策略建议的强化学习的遗憾界

本文提出了一种强化学习与策略建议（RLPA）算法，可以利用提供的一组输入策略并学会使用最佳策略来解决当前的强化学习任务。我们证明了算法的深度复杂度和次线性遗憾与最佳输入策略相对应，而这种遗憾和复杂度与状态和动作空间的大小无关。我们的实验模拟支持我们的理论分析。这表明 RLPA 可能在提供先前良好策略的大型领域中具有重要优势。

May, 2013

线性二次型调节器的鲁棒自适应控制遗憾界

本文提出了一种自适应控制的方法，可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题，算法的时间复杂度为多项式级别，且在控制中有很好的保障。

May, 2018

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

无折扣连续强化学习的在线遗憾界

该研究针对连续状态空间中的无折扣强化学习问题，提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法，在 rewards 和 transition probabilities 保持 Holder 连续性的情况下，给出了子线性遗憾界。

Feb, 2013

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

通过想象近未来来实现安全强化学习

本研究关注应用于现实世界问题中的强化学习算法，提出了一种基于模型的算法可以规避不安全状态并降低安全违规，在连续控制任务中取得相当的回报.

Feb, 2022

可证明的无需重制强化学习算法

提出了一种重置免费的强化学习算法，将重置免费 RL 转化为两个玩家的博弈，以达到次线性性能失误和次线性重置总数。此外，提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。

Jan, 2023

线性函数逼近的安全强化学习

本文提出在强化学习过程中学习安全性机制的方法，并针对线性函数状态下的马尔科夫决策过程提出了 SLUCB-QVI 和 RSLUCB-QVI 算法，能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平

Jun, 2021