Jan, 2024

训练时间攻击的自适应折扣

TL;DR通过开发一种名为gammaDDPG的DDPG算法的特殊版本,我们展示了一种更强版本的构建性训练时攻击(C-TTA),即使目标行为由于环境动态和与受害者目标的非最优性而不可采纳。