Oct, 2019

批量强化学习和控制中的策略污染

TL;DR本研究针对批量强化学习和控制中的安全威胁进行了探讨,该攻击旨在污染所学策略。案例针对强化学习中的表格确定等价学习器和控制中的线性二次调节器进行了实例化,并表明了两个实例均可实现全局最优解。