Apr, 2023

强化学习环境污染攻击的政策韧性

TL;DR本文提出了一种基于知识共享的策略韧性机制,通过联邦体系结构和元学习方式设计实现,使受污染策略能够更快速地诊断和恢复其策略性能,经实验证明其对于模型有无 RL 算法恢复被污染策略的部署性能有较高的效率和有效性。