提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
利用强化学习中的对抗噪音和以聚集对手人口作为训练方法,改善了机器人领域中强化学习中的鲁棒性和泛化性能。
Aug, 2020
该研究提出了RADIAL-RL框架,以提高深度强化学习代理的鲁棒性,经实验表明,RADIAL-RL代理在对抗攻击下的性能表现出色,同时提出了一种新的评估方法,称为Greedy Worst-Case Reward (GWC)。
本文针对强化学习中的深度神经网络,提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法,其中使用了采样平滑和基于样条插值的鲁棒性证明。
Jun, 2021
本文提出了可行的对抗性强化学习(FARR) 方法来自动确定环境参数的范围,通过将该问题作为二人零和博弈,最优化FARR目标可以在可行支持上产生对抗性分布和策略鲁棒,在参数化的网格世界和三个MuJoCo控制环境中证明,使用FARR训练的优化代理相对于现有的极小化、域随机化和后悔目标在可行对抗参数选择上更具鲁棒性。
Jul, 2022
本文提出了一种分布式抗干扰强化学习算法,即Robust Phased Value Learning算法,该算法针对四种不同的差距度量指标的不确定性集合进行求解,得到的结果在样本复杂度方面比现有结果具有更好的一致性。
Mar, 2023
本研究引入了群体对抗训练方法以增强强化学习代理的鲁棒性和优化性能,通过在最优解决方案的近似嵌套和更加普适性的选取方式进行了验证。
Jun, 2023
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024
为了解决强化学习中的模拟到实际之间的差距,学习策略必须对环境不确定性保持鲁棒性。本研究着重于多智能体环境中学习分布鲁棒马尔可夫博弈,提出基于模型的 DRNVI 算法来学习各种博弈论平衡的鲁棒变种,同时建立了信息论下界以确认 DRNVI 的近乎最优样本复杂度。