资源分配的欺骗性规划
将代理人的自由能量最大化作为一个游戏过程,其中一个虚拟的对手通过支付成本中产生要素,以降低决策者的回报,以便使决策者对其选择不感兴趣,从而紧密联系了自由能量最优化与博弈论。
Apr, 2014
本文探讨了计算机自主行为中规划算法的安全性问题,通过提出两种敌对规划算法评估了商业应用中两种主流规划算法 D* Lite 和 Fast Downward 的性能,并证明了在任何基于搜索的规划系统中找到最佳扰动都是 NP-hard,同时揭示了规划算法在面对敌对行动时存在脆弱性。
May, 2022
该研究旨在通过引入一种名为“团队公共信息”的新游戏表述来解决一个问题,即针对信息不对称的团队在零和游戏中的行为策略,这种表述是高度可解释性的,同时保持了2人树形表达的计算效率和表达能力。
Jun, 2022
本文研究了一种涉及意图欺骗的概率规划问题以及如何利用防御者的有限感知模式来实现攻击目标,同时隐藏攻击者的意图,为此我们提出了相应的攻击策略和规划算法,并验证了其正确性和完整性。
Sep, 2022
本文研究在强化学习的多智能体环境中,攻击者通过对受害者智能体进行对抗性的过程来实施攻击,并提出了一种更一般化的攻击模型,通过攻击预算来实现对智能体的控制,可产生能够利用受害者智能体的隐蔽性对抗策略,同时提供了首个提供收敛证明的保护方案,以对抗最强的对抗性训练。
May, 2023
通过学习,设计公平分配机制,以比例公平性为基准,解决了一次性分配机制的学习问题,同时提出了可行的方法来度量机制的可利用性,并通过数据控制公平性和可利用性之间的权衡,提出了两种近似比例公平机制,分别是ExPF-Net和ExS-Net,通过大量的数值模拟验证了这些机制的有效性和鲁棒性。
Nov, 2023
通过引入局部感知模型,基于强化学习的策略训练方案解决了欺骗路径规划问题,并在测试时成功实现了普适性、可伸缩性、可调节的欺骗程度以及对环境变化的实时适应。
Feb, 2024
通过战略建模,我们的研究提出使用对手的动机作为归纳偏差学习的一种方式,通过战略训练在不确定奖励条件下防御对手,此方法甚至对对手动机的轻微了解也能有用,潜在收益程度取决于动机与学习任务结构的关系。
Jun, 2024