用于AI控制的游戏：AI部署协议的安全评估模型

Sep, 2024

用于AI控制的游戏：AI部署协议的安全评估模型

Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols

Charlie Griffin, Louis Thomson, Buck Shlegeris, Alessandro Abate

TL;DR本研究解决了不受信任的AI部署协议的安全性和有效性评估问题。我们提出了AI-Control Games，作为一种多目标、部分可观察的随机博弈的形式化决策模型，并发展了通过将其简化为一组零和部分可观察随机博弈来寻找最佳协议的方法。研究结果显示，我们的形式化方法在现有设置中显著提高了协议评估的效果，并为新设置中的协议评估提供了新的见解。

Abstract

To evaluate the safety and usefulness of deployment protocols for untrusted AIs, AI Control uses a red-teaming exercise played between a protocol designer and an adversary. This paper introduces AI-Control Games, a formal →

发现论文，激发创造

AI中的构造正确执行时强制执行-一项调查

本文探讨了针对AI安全方面的应用开发运行时执行方式，介绍了监管工具的选型、适用的离散/连续动作空间等相关技术细节，旨在提高我们对不同执行应用的理解及未来应用方向。

Aug, 2022

多智能体验证与控制的概率模型检验

概率模型检查是一种在不确定性或随机性背景下对软件或硬件系统进行形式化自动推理的技术。该技术综合了来自多个领域的思想和技术，包括逻辑、自动机理论、图论、优化、数值方法和控制。最近，概率模型检查还扩展到整合博弈论中的思想，特别是使用随机博弈模型和均衡解概念来正式验证具有不同目标的多个理性代理之间的交互。这提供了一种灵活推理有关代理以对抗或协作方式行动的手段，并为人工智能、机器人和自主系统等领域解决新问题带来机遇。本文概述了该领域的一些进展，并强调了它们已经被使用的应用。我们讨论了概率模型检查的优势如何应用或有潜力应用于多智能体系统，并概述了在这一领域取得更进一步的关键挑战。

Aug, 2023

红队游戏：红队语言模型的博弈理论框架

用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。

Sep, 2023

生成AI的红队测试：是银弹还是安全娱乐？

通过对AI工业界最近的红队活动案例和相关研究文献的调查，我们发现先前的AI红队方法和实践在多个方面存在差异，包括活动目的、评估对象、实施方式和所得出的决策。鉴于我们的发现，我们认为虽然红队可能是一个有价值的广义概念，用于描述一系列旨在改善Generative AI模型行为的活动和态度，但宣称红队是解决一切可能风险的万灵药则属于安全戏剧。为了更好地评估生成AI，我们将我们的建议综合成一个问题库，旨在指导和规范未来的AI红队实践。

Jan, 2024

游戏中的递归联合模拟

在这篇论文中，我们研究了AI代理之间的相互作用，其中代理运行递归联合模拟。结果显示，这种互动在战略上等同于原始游戏的无限重复版本，从而实现了现有结果的直接转移，如各种民间定理。

Feb, 2024

通过在线学习和自适应猜想实现自动安全响应

我们研究了一个IT基础设施的自动化安全响应，并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性，利用贝叶斯学习和回滚的方法在线学习有效的游戏策略，并证明了推测收敛于最佳拟合，并提供了基于推测模型的性能改进的界限。我们提出了Berk-Nash均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明，我们的方法能够产生适应不断变化的环境的有效安全策略，并且我们还发现相比当前的强化学习技术，我们的方法能够实现更快的收敛。

Feb, 2024

量化AI漏洞: 复杂性、动态系统和博弈论综合

我们提出了一种新颖的方法，引入了三个指标：系统复杂性指数（SCI），人工智能稳定性的李雅普诺夫指数（LEAIS）和纳什均衡鲁棒性（NER）。SCI量化了人工智能系统的内在复杂性，LEAIS捕捉了其稳定性和对扰动的敏感性，而NER评估了其对对手操纵的战略鲁棒性。通过比较分析，我们展示了我们的框架相对于现有技术的优势。我们讨论了理论和实践的意义，潜在的应用，限制以及未来的研究方向。我们的工作通过提供一种全面的、理论上有基础的人工智能安全评估方法，为安全可靠的人工智能技术的发展做出了贡献。随着人工智能的不断发展，通过跨学科合作优先考虑和推动人工智能安全是确保其对社会的益处负责任的部署至关重要。

Apr, 2024

游戏中基于自然语言沟通的人工智能与人类协作

在信息不对称的情况下，开发能够制定策略并与人类合作的自主代理人是具有挑战性的，需要有效的自然语言交流。我们引入了一个共享控制游戏，两个玩家轮流共同控制一个令牌，以在不完整信息下实现共同目标。我们对一个自主代理人在此游戏中与另一位玩家（人类）的政策综合问题进行了数学建模。为了解决这个问题，我们提出了一种基于通信的方法，包括一个语言模块和一个规划模块。语言模块将自然语言消息与定义玩家意图的有限标志集之间进行翻译。规划模块利用这些标志，使用我们提出的基于不对称信息集的蒙特卡洛树搜索与标志交换算法计算策略。我们使用《夜间侏儒》作为基础的测试场景进行了这种方法的有效性评估，该场景是一个搜索和找到迷宫棋盘游戏。人类主体实验的结果表明，通过交流，玩家之间的信息鸿沟变小，合作效率提高，并减少回合数。

May, 2024

网络物理游戏

多智能体在物理系统内进行协作或对抗性游戏，通过探讨其性质、建立算法模型和评估结果，研究了协作和对抗版本的迭代布尔游戏，验证了提出的模型的有效性，并提出了继续发展我们对于物理系统的理解以及如何设计在这样的环境中操作的智能体所需要的研究方向。

Jul, 2024

保护AI代理：开发和分析安全架构

本研究针对AI系统中的安全性问题，特别是在协作环境中，提出了三种新的安全架构框架，以增强AI代理的安全协议。通过对不安全用例进行综合评估，发现这些框架能够显著提升AI代理系统的安全性，降低潜在风险，从而为确保AI技术在实际应用中的负责任使用奠定基础。

Sep, 2024