TrustAgent：通过 Agent 组织构建实现安全可信的 LLM-based 代理

MMFeb, 2024

TrustAgent：通过 Agent 组织构建实现安全可信的 LLM-based 代理

TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent Constitution

Wenyue Hua, Xianjun Yang, Zelong Li, Cheng Wei, Yongfeng Zhang

TL;DR通过引入安全意识并探索安全与可信性之间的关系，这篇论文提出了基于 Agent-Constitution 的代理框架 TrustAgent，为提高 LLM-based agents 的安全性而进行了初步研究，采用了预先规划、规划中和规划后策略来提升代理的安全性，并在实验中演示了这些方法如何识别和防止潜在的危险。

Abstract

The emergence of llm-based agents has garnered considerable attention, yet their trustworthiness remains an under-explored area. As agents can directly interact with the physical environment, their reliability an

llm-based agents trustworthiness safety agent-constitution-based agent framework integration

发现论文，激发创造

将保障放在自治之上：LLM 代理在科学中的风险

通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞，找出潜在的风险、强调对安全措施的需求，以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险，还强调了目前保护科学 Agent 的限制和挑战，并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。

Feb, 2024

GuardAgent: 通过知识驱动的推理由防护手段保护 LLM Agents

大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了 GuardAgent 作为 LLM 代理的守卫，通过检查输入 / 输出是否满足用户定义的一组保护要求来监督目标 LLM 代理，从而增强其安全性。GuardAgent 具有可扩展的工具箱、无需额外的 LLM 训练，并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的 98.7% 和 90.0% 的准确性。

Jun, 2024

安全芯片插入：强制 LLM 驱动的机器人代理遵守限制

利用大型语言模型（LLM）所提供的世界知识和普遍推理能力，我们提出了一种基于线性时态逻辑（LTL）的可查询安全约束模块，用于在协作环境中部署 LLM 代理，并通过自然语言到时态约束编码、安全违规推理、不安全行为修剪等功能，实现了显式指示禁止行为、评估机器人对限制的理解，并确保其合规性。实验证明我们的系统可以严格遵守安全约束并能很好地适用于复杂的安全约束，具备实际应用潜力。

Sep, 2023

恶魔天才：深入探究基于 LLM 的智能体的安全性

通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

Nov, 2023

加强基于 LLM 的 AI 自动化代理的信任：新的考虑和未来挑战

研究文献中广泛探讨了对 AI 代理的信任问题，随着大型语言模型和基于此模型的 AI 代理框架的快速发展，面临着新的挑战和研究机会。本文研究了新一代基于 AI 的代理在流程自动化领域崛起的新挑战和机遇，分析了现有文献中讨论的 AI 代理信任的主要方面，并确定了与这一新代理代际相关的具体考虑和挑战。同时，我们评估了该类别中新产品如何解决这些考虑因素，并强调研究界应在这一不断演变的领域中解决的几个挑战。

Aug, 2023

概念引导的 LLM 代理用于人工智能安全共设

通过定制化的大型语言模型 (LLM) 代理，采用提示工程、启发式推理和检索增强生成的元素，以保持结构化信息，我们提出了一种高效的混合策略，利用 LLM 进行安全分析和人工智能与人类的协同设计，以提高软件工程和安全工程中的生成式 AI 的质量要求，并确保人类对生成式 AI 提供的建议负责，通过图形表述作为系统模型的中间表示，促进了 LLM 和图形之间的交互，以简化的自动驾驶系统为案例说明了我们的方法。

Apr, 2024

PsySafe：多智能体系统安全的心理攻守与评估的综合框架

多智能体系统结合大型语言模型 (LLMs) 展示了集体智能的显著能力，然而对于潜在的恶意使用所带来的安全问题的全面研究仍然有限。本研究基于智能体心理学提出了一个综合框架，着重于确定智能体黑暗人格特质可能导致的风险行为，设计缓解这些风险的防御策略，并从心理和行为的角度评估多智能体系统的安全性。我们的实验揭示了多智能体之间存在的集体危险行为、智能体在危险行为中的自我反思倾向以及智能体的心理评估与危险行为之间的相关性等有趣现象。预计我们的框架和观察结果将为进一步的多智能体系统安全研究提供有价值的见解。我们的数据和代码可在 https:/github.com/AI4Good24/PsySafe 公开获取。

Jan, 2024

R-Judge：LLM 代理程序的安全风险意识基准测试

通过评估 R-Judge，本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试，对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%，而人类得分为 89.38%，显示了提高语言模型对风险意识的潜力。此外，利用风险描述作为环境反馈显著提高了模型的性能，揭示了突出的安全风险反馈的重要性。最终，通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

Jan, 2024

在野外安全地测试语言模型代理

在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架，通过上下文敏感的监视器对智能体的行为进行审计，强制实施严格的安全边界来阻止不安全的测试，并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有 LLM 智能体，并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后，我们将安全监视器应用于 AutoGPT 的一系列现实世界测试中，识别了一些存在的限制和挑战，这些将是随着自主智能体的能力增强，创建安全的野外测试时将面临的问题。

Nov, 2023

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024