基于遗憾的优化方法用于强化学习的鲁棒性
本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法,能够有效处理部分观测状态,并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。
Oct, 2017
深度强化学习中对抗性噪声的解决方法,包括使用正则化方法和引入 Adversarial Counterfactual Error 目标来提高鲁棒性。实证结果表明该方法在解决对抗 RL 问题上优于当前最先进的方法。
Jun, 2024
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
Mar, 2019
本文研究基于深度神经网络的自主决策系统的安全性,提出了一种基于认证对抗鲁棒性的在线防御机制,该机制计算执行过程中状态 - 动作值的保证下限,以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动,在行人碰撞回避场景和一个经典控制任务中,该方法显示出提高对噪声和对手的鲁棒性。
Oct, 2019
本文探讨了深度强化学习策略中的鲁棒性问题,发现通过更自然的方式在黑盒设置中可以找到灵敏度方向,且相较于最先进的对抗性训练技术,普通训练技术可以使学习到的策略更加鲁棒。该实验结果可以为构建更加鲁棒的深度强化学习策略提供帮助。
Jan, 2023
本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略,实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。
Oct, 2018
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
研究了强化学习在面对敌对攻击 (即使状态的扰动) 时的鲁棒性,并提出了一种基于 ATLA 框架的方法来增强 Agent 的鲁棒性,通过训练 online 的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段,从而提高强化学习在实验中的表现。
Jan, 2021