利用不完美观察者的近乎必然意图欺骗规划

Sep, 2022

利用不完美观察者的近乎必然意图欺骗规划

On Almost-Sure Intention Deception Planning that Exploits Imperfect Observers

Jie Fu

TL;DR本文研究了一种涉及意图欺骗的概率规划问题以及如何利用防御者的有限感知模式来实现攻击目标，同时隐藏攻击者的意图，为此我们提出了相应的攻击策略和规划算法，并验证了其正确性和完整性。

Abstract

intention deception involves computing a strategy which deceives the opponent into a wrong belief about the agent's intention or objective. This paper studies a class of probabilistic planning problems with

intention deception probabilistic planning markov decision process limited sensing modality attack strategy

发现论文，激发创造

偷袭计划对抗不完美观察者

隐秘规划研究使用随机动力学和不完美观察来实现最佳任务表现而不被检测到，本文引入了马尔可夫决策过程和近端策略梯度方法来解决这个问题。

Oct, 2023

在对抗环境中规划攻击者困境

本文提出了一种规划框架，以生成一种防御策略，旨在针对在保卫者能够在攻击者不知情的情况下运作的环境中工作的攻击者。防御者的目标是将攻击者促使进入困境状态，从而无法实现其目标；同时，防御者被限制在 K 个步骤内实现其目标，其中 K 被计算为一种悲观的下限，攻击者很少怀疑可能存在威胁。通过实证评估，我们展示了本文研究意义的可行性。

Mar, 2023

资源分配的欺骗性规划

本文研究在敌对环境下，自主代理团队通过在目标位置上分配资源来完成任务，发展了密度控制和最大熵预测算法，以欺骗对手达到期望的资源分配。

Jun, 2022

互动 POMDP Lite: 面向与自我利益相关的智能体互动的实用规划预测和利用意图

研究智能代理与多代理系统中的规划算法，探索在预测其他代理人的意图的基础上构建的高效的意图感知规划框架，并通过一系列随机博弈的实验表明，该框架可以实现更好的和更稳健的性能。

Apr, 2013

对抗和协作环境下的规划统一框架

提出了一种用于生成易于理解的计划以及能够在对抗环境下保护隐私的混淆计划的统一框架，并展示了如何控制观察者的可观察性以实现目标的混淆或明确。

Feb, 2018

Inception: 高效可计算的马尔可夫博弈虚假信息攻击

研究马尔可夫博弈中信息不对称和错误信息导致的安全威胁，通过考虑一名攻击者玩家散布关于其奖励函数的错误信息来影响受害者玩家的行为，我们推导了在最坏情况理性下受害者的策略，并提出了基于线性规划和反向归纳的多项式时间算法来计算攻击者的最优最坏情况策略，在受限的奖励函数集合中找到最优的错误奖励函数，我们的方法利用了理性的普遍假设来高效计算攻击，因此，我们的工作揭示了在错误信息下由标准游戏假设引起的安全漏洞。

Jun, 2024

诚信为上策：定义与缓解 AI 欺诈

AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究，引入了基于哲学文献的结构因果游戏中欺骗的形式定义，并且给出了用于减缓欺骗的图形标准。

Dec, 2023

自主强化学习智能体中的欺骗行为：立法中的非传统兔帽戏法

支持大型语言模型的最新发展引发了人们对其及基于其上构建的自治代理的安全性关注。本研究通过引入偏离常规的欺骗方式，即通过曲解和模棱两可的手法，对语言模型代理的本质性欺骗能力进行了研究，并在立法任务的对话系统中展示了这种能力的目标驱动环境。通过强化学习的方法，我们发现代理人在对抗性互动的试验中，其欺骗能力增加了近 40%（相对值），我们的欺骗检测机制显示出高达 92% 的检测能力。我们的研究结果凸显了代理人与人类互动中的潜在问题，代理人有可能操纵人类以实现其编程的最终目标。

May, 2024

探测与缓解 AI 欺骗的实验

如何检测和缓解欺骗性人工智能系统是安全可信的人工智能领域的一个开放问题。本文分析了两种缓解欺骗的算法：第一种基于路径特定目标框架，消除激励欺骗的路径；第二种基于护盾，即监控不安全策略并替换为安全参考策略。我们构建了两个简单的游戏，并进行了经验评估。发现这两种方法均能确保我们的代理不欺骗，但护盾倾向于实现更高的回报。

Jun, 2023

POMDPs 让黑客更强：在渗透测试中考虑不确定性

采用部分可观测马尔科夫决策过程 (POMDP) 对攻击计划问题进行建模，以在网络结构允许的情况下进行分解，从而实现对单个机器的攻击，并将其组合成对整个网络的攻击，以提高针对性，缩减运行时间并提高解决方案质量。

Jul, 2013