PsySafe：多智能体系统安全的心理攻守与评估的综合框架

Jan, 2024

PsySafe：多智能体系统安全的心理攻守与评估的综合框架

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang...

TL;DR多智能体系统结合大型语言模型 (LLMs) 展示了集体智能的显著能力，然而对于潜在的恶意使用所带来的安全问题的全面研究仍然有限。本研究基于智能体心理学提出了一个综合框架，着重于确定智能体黑暗人格特质可能导致的风险行为，设计缓解这些风险的防御策略，并从心理和行为的角度评估多智能体系统的安全性。我们的实验揭示了多智能体之间存在的集体危险行为、智能体在危险行为中的自我反思倾向以及智能体的心理评估与危险行为之间的相关性等有趣现象。预计我们的框架和观察结果将为进一步的多智能体系统安全研究提供有价值的见解。我们的数据和代码可在 https:/github.com/AI4Good24/PsySafe 公开获取。

Abstract

multi-agent systems, augmented with large language models (LLMs), demonstrate significant capabilities for collective intelligence. However, the potential misuse of this intelligence for malicious purposes presen

multi-agent systems large language models agent psychology safety issues risky behaviors

发现论文，激发创造

TrustAgent：通过 Agent 组织构建实现安全可信的 LLM-based 代理

通过引入安全意识并探索安全与可信性之间的关系，这篇论文提出了基于 Agent-Constitution 的代理框架 TrustAgent，为提高 LLM-based agents 的安全性而进行了初步研究，采用了预先规划、规划中和规划后策略来提升代理的安全性，并在实验中演示了这些方法如何识别和防止潜在的危险。

Feb, 2024

心理健康 ML 系统的可用安全性框架

该研究论文介绍了一个利用四个支柱和一组期望属性的框架，以系统地指导和评估面向心理健康的机器学习系统的安全相关设计、实施和部署，并提供了几个具体场景，在这些场景中检验和评估了不同的可用安全案例和远景。

Aug, 2020

安全感知的多智能体学徒学习

本研究基于《Safety-Aware Apprenticeship Learning》的技术，提出了一种从单智能体学习框架到多智能体学习框架的延伸，并将这种延伸应用于逆强化学习模型，通过多智能体情景中的安全奖励函数提取，从而实现该模型的有效性和效率的提升。

Jan, 2022

恶魔天才：深入探究基于 LLM 的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

Nov, 2023

利用深度神经网络的关键系统安全框架

本文提出了一个基于贝叶斯分析的安全性论据框架，该框架使用运行数据和最新的深度学习验证技术，支持多种形式的预测，并针对实际的关键系统进行了建模和验证。

Mar, 2020

将保障放在自治之上：LLM 代理在科学中的风险

通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞，找出潜在的风险、强调对安全措施的需求，以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险，还强调了目前保护科学 Agent 的限制和挑战，并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。

Feb, 2024

在野外安全地测试语言模型代理

在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架，通过上下文敏感的监视器对智能体的行为进行审计，强制实施严格的安全边界来阻止不安全的测试，并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有 LLM 智能体，并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后，我们将安全监视器应用于 AutoGPT 的一系列现实世界测试中，识别了一些存在的限制和挑战，这些将是随着自主智能体的能力增强，创建安全的野外测试时将面临的问题。

Nov, 2023

LLM 平台的安全性：将系统评估框架应用于 OpenAI 的 ChatGPT 插件

通过插件生态系统来提高大型语言模型平台的安全性、隐私性和安全性，提出了一种攻击分类法的框架，在 OpenAI 的插件生态系统中应用了该框架，并提出了改进当前和未来基于 LLM 的计算平台的建议。

Sep, 2023

OmniSafe：用于加速安全强化学习研究的基础设施

本篇论文给出一个基础性安全强化学习框架，拥有不同领域跨越的一系列算法和重要的安全元素，以便更有效地研究 AI 安全和 SafeRL 算法实现。

May, 2023

机器学习安全性：网络物理系统、决策科学和数据产品

本论文旨在明确机器学习安全的定义，并通过研究智能决策科学和数据产品等应用领域，探讨实现机器学习安全的四种策略，包括内在安全设计、安全保护垫、安全失败和程序保护，并提出相应的技术方法和异议函数，以确保解释性、因果性、人工参与和用户体验设计等方面的安全性。

Oct, 2016