利用不完美观察者的近乎必然意图欺骗规划
本文提出了一种规划框架,以生成一种防御策略,旨在针对在保卫者能够在攻击者不知情的情况下运作的环境中工作的攻击者。防御者的目标是将攻击者促使进入困境状态,从而无法实现其目标;同时,防御者被限制在 K 个步骤内实现其目标,其中 K 被计算为一种悲观的下限,攻击者很少怀疑可能存在威胁。通过实证评估,我们展示了本文研究意义的可行性。
Mar, 2023
研究智能代理与多代理系统中的规划算法,探索在预测其他代理人的意图的基础上构建的高效的意图感知规划框架,并通过一系列随机博弈的实验表明,该框架可以实现更好的和更稳健的性能。
Apr, 2013
研究马尔可夫博弈中信息不对称和错误信息导致的安全威胁,通过考虑一名攻击者玩家散布关于其奖励函数的错误信息来影响受害者玩家的行为,我们推导了在最坏情况理性下受害者的策略,并提出了基于线性规划和反向归纳的多项式时间算法来计算攻击者的最优最坏情况策略,在受限的奖励函数集合中找到最优的错误奖励函数,我们的方法利用了理性的普遍假设来高效计算攻击,因此,我们的工作揭示了在错误信息下由标准游戏假设引起的安全漏洞。
Jun, 2024
AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究,引入了基于哲学文献的结构因果游戏中欺骗的形式定义,并且给出了用于减缓欺骗的图形标准。
Dec, 2023
支持大型语言模型的最新发展引发了人们对其及基于其上构建的自治代理的安全性关注。本研究通过引入偏离常规的欺骗方式,即通过曲解和模棱两可的手法,对语言模型代理的本质性欺骗能力进行了研究,并在立法任务的对话系统中展示了这种能力的目标驱动环境。通过强化学习的方法,我们发现代理人在对抗性互动的试验中,其欺骗能力增加了近 40%(相对值),我们的欺骗检测机制显示出高达 92% 的检测能力。我们的研究结果凸显了代理人与人类互动中的潜在问题,代理人有可能操纵人类以实现其编程的最终目标。
May, 2024
如何检测和缓解欺骗性人工智能系统是安全可信的人工智能领域的一个开放问题。本文分析了两种缓解欺骗的算法:第一种基于路径特定目标框架,消除激励欺骗的路径;第二种基于护盾,即监控不安全策略并替换为安全参考策略。我们构建了两个简单的游戏,并进行了经验评估。发现这两种方法均能确保我们的代理不欺骗,但护盾倾向于实现更高的回报。
Jun, 2023
采用部分可观测马尔科夫决策过程 (POMDP) 对攻击计划问题进行建模,以在网络结构允许的情况下进行分解,从而实现对单个机器的攻击,并将其组合成对整个网络的攻击,以提高针对性,缩减运行时间并提高解决方案质量。
Jul, 2013