通过人口训练降低漏洞利用
提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
研究了强化学习在面对敌对攻击(即使状态的扰动)时的鲁棒性,并提出了一种基于ATLA框架的方法来增强Agent的鲁棒性,通过训练online的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段,从而提高强化学习在实验中的表现。
Jan, 2021
本文研究在强化学习的多智能体环境中,攻击者通过对受害者智能体进行对抗性的过程来实施攻击,并提出了一种更一般化的攻击模型,通过攻击预算来实现对智能体的控制,可产生能够利用受害者智能体的隐蔽性对抗策略,同时提供了首个提供收敛证明的保护方案,以对抗最强的对抗性训练。
May, 2023
通过理论和实证研究,我们解决自适应对手提出的挑战,并开发自适应防御策略,从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。
Dec, 2023
该研究提出了一个框架,通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性,并以D4RL基准进行了评估,结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性,为提高实际场景中离线强化学习模型的可靠性提供了希望。
May, 2024
通过战略建模,我们的研究提出使用对手的动机作为归纳偏差学习的一种方式,通过战略训练在不确定奖励条件下防御对手,此方法甚至对对手动机的轻微了解也能有用,潜在收益程度取决于动机与学习任务结构的关系。
Jun, 2024