Jul, 2020

基于反证法的强化学习鲁棒性敌对攻击

TL;DR本文提出了基于 Falsification 的 Robust Adversarial Reinforcement Learning (FRARL) 框架,将时序逻辑 Falsification 整合到 Adversarial Learning 中以提高策略的鲁棒性,实验结果表明,采用该框架训练的智能体比其他方法更具有通用性和遵守安全规则的能力。