深度强化学习中的鲁棒策略优化
我们提出了一种基于离线策略的Actor-Critic算法,结合了随机搜索梯度-free优化和学习的动作价值函数,通过评估参数化动作-价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤,在 31 个连续控制任务中进行对比与实验,并取得了良好的效果。
Dec, 2018
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
通过深度强化学习的控制任务,对传统正则化技术在多种优化算法中的应用及效果进行综合研究,发现传统的正则化技术能够改善学习效果,特别在较难的任务中,说明正则化有助于强化学习中的泛化表现。
Oct, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
通过最大化Renyi熵的方法,提出了一种适用于元RL的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法(batch RL algorithm)以便在规划阶段中能更好地处理任意奖励函数。
Jun, 2020
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
May, 2022
本文提出了一种新的强化学习算法APO,该算法利用max-min博弈理论减轻数据扩充带来的过拟合问题,提高了学习策略的效率,并对几个DeepMind控制机器人环境的高维度和噪声状态设置进行了评估。实证结果表明,我们的方法APO在性能上始终优于最先进的基于策略的PPO代理,并且与最先进的数据增强,RAD和基于正式的DRAC等方法进行了比较。
Apr, 2023
通过学习具有相似环境结构但不同动力学的数据的稳态分布,使用稳态分布规范化策略并构建SRPO算法来解决Reinforcement Learning算法训练数据分布不同的问题,并在实验中验证了其有效性。
Jun, 2023
该论文提出了一种算法,旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标,其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察,从而最大化代理采取不同行动的概率,而策略网络通过更新参数来最小化这种扰动的影响,同时最大化预期的未来奖励,从而保持稳健性。基于这一设置,我们提出了一种实用的深度强化学习算法ARPO(对抗鲁棒策略优化),以找到一个能够适应未知环境的鲁棒策略。我们在Procgen和Distracting Control Suite上评估了我们的方法的泛化能力和样本效率。实验证明,与一些基线算法(包括数据增强)相比,ARPO展现出了更好的性能。
Aug, 2023
本研究针对深度强化学习政策在真实世界应用中缺乏鲁棒性的问题,探讨了小状态扰动对其稳定性的影响。提出了一种改进的Dreamer V3架构,通过最大李雅普诺夫指数正则化来减少状态动态的混沌性,从而提高了学习政策对传感器噪声和对抗攻击的抵抗能力。这一方法大大增强了深度强化学习在实际应用中的适用性。
Oct, 2024