Nov, 2022

对抗性廉价谈判

TL;DR本文介绍了一种名为 Cheap Talk MDP 的新的对抗设置,其中一个 Adversary 只能向 Victim 的观察结果中添加确定性信息,从而实现最小影响范围,并提出了一种名为 Adversarial Cheap Talk (ACT) 的元学习算法来训练 Adversary,在高度约束的情况下,ACT Adversary 仍能对 Victim 的训练和测试表现产生明显影响,从而揭示了训练时间性能的新攻击向量,并提供了现有 RL 算法成功和失败模式的见解。