通过对抗内核逼近实现稳健强化学习
提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本研究基于随机梯度 langevin 动力学引入了一种采样视角来训练机器人学习代理,构建了一种新型、可扩展的两个玩家机器人学习算法,并在多个 MuJoCo 环境中证明了该算法相对于传统机器人学习算法更具有一般化能力。
Feb, 2020
本文提出了可行的对抗性强化学习(FARR) 方法来自动确定环境参数的范围,通过将该问题作为二人零和博弈,最优化FARR目标可以在可行支持上产生对抗性分布和策略鲁棒,在参数化的网格世界和三个MuJoCo控制环境中证明,使用FARR训练的优化代理相对于现有的极小化、域随机化和后悔目标在可行对抗参数选择上更具鲁棒性。
Jul, 2022
本文提出了一种新颖的稳健策略梯度方法 (RPG) 用于 s-矩形稳健马尔可夫决策过程(MDP)。我们首次导出了闭式的对抗性核,并证明它是名义核的一阶扰动。这使我们能够得到一个类似于在非稳健 MDP 中使用的 RPG 的算法,但具有稳健的 Q 值函数和一个附加的校正项。稳健的 Q 值和校正项都可以高效计算,因此我们方法的时间复杂度与非稳健 MDP 的时间复杂度相匹配,比现有的黑盒方法快得多。
Jan, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的$d$-长方形不确定性集合,通过去除额外的非线性性和绕过误差传播来解决DRMDPs的非线性问题,并引入了DR-LSVI-UCB算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线DRMDP算法,并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线DRMDPs与线性函数逼近的可验证高效性的深入理解的第一步。最后,我们通过不同的数值实验验证了DR-LSVI-UCB的性能和鲁棒性。
Feb, 2024
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024
应用鲁棒MDPs框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真MDPs中提高学习策略性能的显著改进。
Jun, 2024