资源分配的欺骗性规划

Jun, 2022

Deceptive Planning for Resource Allocation

Yagiz Savas, Mustafa O. Karabag, Brian M. Sadler, Ufuk Topcu

TL;DR本文研究在敌对环境下，自主代理团队通过在目标位置上分配资源来完成任务，发展了密度控制和最大熵预测算法，以欺骗对手达到期望的资源分配。

Abstract

We consider a team of autonomous agents that navigate in an adversarial environment and aim to achieve a task by allocating their resources over a set of target locations. The adversaries in the environment obser

发现论文，激发创造

信息论界有界理性的对抗解释

将代理人的自由能量最大化作为一个游戏过程，其中一个虚拟的对手通过支付成本中产生要素，以降低决策者的回报，以便使决策者对其选择不感兴趣，从而紧密联系了自由能量最优化与博弈论。

Apr, 2014

对抗和协作环境下的规划统一框架

提出了一种用于生成易于理解的计划以及能够在对抗环境下保护隐私的混淆计划的统一框架，并展示了如何控制观察者的可观察性以实现目标的混淆或明确。

Feb, 2018

对抗规划

本文探讨了计算机自主行为中规划算法的安全性问题，通过提出两种敌对规划算法评估了商业应用中两种主流规划算法 D* Lite 和 Fast Downward 的性能，并证明了在任何基于搜索的规划系统中找到最佳扰动都是 NP-hard，同时揭示了规划算法在面对敌对行动时存在脆弱性。

May, 2022

对抗团队游戏与双人游戏的组合：实现抽象化、无悔学习和子博弈求解

该研究旨在通过引入一种名为“团队公共信息”的新游戏表述来解决一个问题，即针对信息不对称的团队在零和游戏中的行为策略，这种表述是高度可解释性的，同时保持了2人树形表达的计算效率和表达能力。

Jun, 2022

利用不完美观察者的近乎必然意图欺骗规划

本文研究了一种涉及意图欺骗的概率规划问题以及如何利用防御者的有限感知模式来实现攻击目标，同时隐藏攻击者的意图，为此我们提出了相应的攻击策略和规划算法，并验证了其正确性和完整性。

Sep, 2022

重新思考敌对政策：多智能体RL中的广义攻击公式与可证明防御

本文研究在强化学习的多智能体环境中，攻击者通过对受害者智能体进行对抗性的过程来实施攻击，并提出了一种更一般化的攻击模型，通过攻击预算来实现对智能体的控制，可产生能够利用受害者智能体的隐蔽性对抗策略，同时提供了首个提供收敛证明的保护方案，以对抗最强的对抗性训练。

May, 2023

偷袭计划对抗不完美观察者

隐秘规划研究使用随机动力学和不完美观察来实现最佳任务表现而不被检测到，本文引入了马尔可夫决策过程和近端策略梯度方法来解决这个问题。

Oct, 2023

基于数据驱动的无货币策略代理的近理想公平资源分配

通过学习，设计公平分配机制，以比例公平性为基准，解决了一次性分配机制的学习问题，同时提出了可行的方法来度量机制的可利用性，并通过数据控制公平性和可利用性之间的权衡，提出了两种近似比例公平机制，分别是ExPF-Net和ExS-Net，通过大量的数值模拟验证了这些机制的有效性和鲁棒性。

Nov, 2023

基于图神经网络的强化学习欺骗式路径规划

通过引入局部感知模型，基于强化学习的策略训练方案解决了欺骗路径规划问题，并在测试时成功实现了普适性、可伸缩性、可调节的欺骗程度以及对环境变化的实时适应。

Feb, 2024

具有动机的对手：对抗鲁棒性的战略性替代方案

通过战略建模，我们的研究提出使用对手的动机作为归纳偏差学习的一种方式，通过战略训练在不确定奖励条件下防御对手，此方法甚至对对手动机的轻微了解也能有用，潜在收益程度取决于动机与学习任务结构的关系。

Jun, 2024