通过点对点蒸馏实现鲁棒的领域随机增强学习

Dec, 2020

通过点对点蒸馏实现鲁棒的领域随机增强学习

Robust Domain Randomised Reinforcement Learning through Peer-to-Peer Distillation

Chenyang Zhao, Timothy Hospedales

TL;DR此篇研究论文提出了一种名为P2PDRL的强化学习方法，通过使用同行之间的在线蒸馏策略来缓解来自随机域的高梯度估计方差和不稳定学习过程的问题，实验结果表明P2PDRL能够使学习更加鲁棒，泛化性能也更加优越。

Abstract

In reinforcement learning, domain randomisation is an increasingly popular technique for learning more general policies that are robust to domain-shifts at deployment. However, naively aggregating information fro

发现论文，激发创造

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态/操作空间中扩展了此方法，得出了分布式鲁棒软演员-批评家算法的实用算法。

Feb, 2019

强化学习的鲁棒视觉域随机化

通过提出一种正则化方法，使得智能体在训练时只基于一个环境的变体进行训练，并在训练过程中对其学习到的状态表示进行正则化，以实现对不同领域的不变性，该方法比标准的域随机化技术更有效和鲁棒，并能实现相同的泛化分数。

Oct, 2019

通过Langevin动力学与对抗训练实现强化学习的鲁棒性

本研究基于随机梯度 langevin 动力学引入了一种采样视角来训练机器人学习代理，构建了一种新型、可扩展的两个玩家机器人学习算法，并在多个 MuJoCo 环境中证明了该算法相对于传统机器人学习算法更具有一般化能力。

Feb, 2020

离线动态强化学习: 通过领域分类器进行转移训练

我们提出了一种简单、实用和直观的强化学习领域自适应方法，通过修改奖励函数，使用辅助分类器来区分源域和目标域，对源域中不可能出现的状态进行惩罚，适用于连续状态和动作的域，可扩展至高维任务。

Jun, 2020

关于实用的强化学习：可证明的鲁棒性、可扩展性和统计效率

本文旨在研究多种强化学习方法如鲁棒性RL，分布式RL 和离线RL，并为每个方法提供算法以及未来的相关研究方向。

Mar, 2022

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

通过对抗内核逼近实现稳健强化学习

通过对RMDPs中的敌对核进行特征化，我们提出了一种新颖的在线鲁棒RL方法，该方法近似敌对核并使用标准的（非鲁棒）RL算法来学习鲁棒策略。特别是，该方法可应用于任何基础RL算法之上，可以轻松扩展到高维领域。在经典控制任务，MinAtar和DeepMind Control Suite中的实验表明了我们方法的有效性和适用性。

Jun, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来RL的安全和稳健性的相关研究工作进行总结，本文主要关注RL系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强RL代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署RL系统。

Mar, 2024

分布式健壮强化学习与交互式数据采集：基本难题与近似最优算法

通过交互式数据收集，我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题，为设计样本高效的算法提供了足够的条件，并伴随着尖锐的样本复杂性分析。

Apr, 2024