Apr, 2023

强化学习中恢复触发状态以防范后门攻击

TL;DR本研究提出了一种名为RTS的新方法,通过建立一个代理网络来近似环境动态模型,采用代理行动信息实现在预测状态下采取的行动与在实际状态下采取行动的差异,从而有效地防御单一代理中的后门攻击,达到保护受害代理的目的。实验结果表明,在后门攻击下,使用RTS时累积回报只下降了1.41%。