在线非随机模型无关强化学习

May, 2023

Online Nonstochastic Model-Free Reinforcement Learning

Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, Elad Hazan

TL;DR该研究探讨了针对动态或敌对环境的强化学习算法，并引入基于干扰信号的新型政策以提高适应性和鲁棒性，并在标准 RL 基准测试中进行了评估并证明了改进的鲁棒性。

Abstract

In this work, we explore robust model-free reinforcement learning algorithms for environments that may be dynamic or even adversarial. Conventional state-based policies fail to accommodate the challenge imposed by the presence of unmodeled disturbances in such settings. Additionally, o

model-free reinforcement learning dynamic environments adversarial environments disturbance signals adaptive reinforcement learning

发现论文，激发创造

带敌对扰动的在线控制

本文研究带有敌对干扰的线性动态系统的控制，在几乎不知道扰动信息的情况下，实现近乎最优的在线控制过程，主要贡献是提出一种算法来提供几乎紧密的遗憾界，这一研究在技术层面上对以前的工作进行了推广和扩展。

Feb, 2019

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

在线稳定强化学习框架

本篇论文介绍了一种将在线增强学习与经典控制的元素（基于 Lyapunov 稳定性理论）进行结合的方法，可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力，并通过实验研究证明了该方法的有效性。

Jul, 2022

在线非随机控制入门

本文介绍了一种新兴的控制理论，引入了在线非随机控制的概念，将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景，实现了可证明保障的新方法，使得控制的目标不再是静态指定的，而是在一定策略下取得低的遗憾值。

Nov, 2022

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

超越最坏情况攻击：非劣政策下的自适应防御强化学习

基于强化学习在现实世界中的蓬勃发展，我们研究了在状态对抗攻击模型下的策略稳健性，并致力于在有限策略类中找到既稳健又高效的近最优解，通过迭代发现非支配策略形成一个最小的近最优解，从而确保在不同攻击场景下的适应性。

Feb, 2024

突发模型变化下的强化学习

提出了一种基于模型无关算法的强化学习问题解决方案，该算法通过与环境互动学习最优策略，并利用最快的变化检测算法来检测模型变化，从而获得长期折现奖励。

Apr, 2023

基于模型的残差策略学习及其在天线控制中的应用

通过一种基于模型的强化学习方法，优化了控制实际系统的非可微控制器和基于规则的策略，取得了良好的样本效率。实验结果表明该方法在多种摆臂机器人控制任务中明显优于现有的基于模型的方法，并成功应用于电信领域。

Nov, 2022