恶魔天才:深入探究基于 LLM 的智能体的安全性
本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力,讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索,以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量,对诱导可操作反应的提示设计进行了评估和启发,并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。
Oct, 2023
利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题,包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测,实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。
Oct, 2023
该研究发现大型语言模型 (chatbots) 可能使得制造病毒变得更加容易,并提出了应对措施,包括第三方评估、筛选训练数据集以及通过合成提供商或承包研究组织和机器人云实验室进行验证筛选所有合成的 DNA。
Jun, 2023
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
通过对基于大语言模型的自主代理的综合调查,本文提出了一个统一框架来概括以往研究,并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时,我们还讨论了该领域的挑战和未来方向。
Aug, 2023
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架,通过游戏和博弈论场景来创建不同的测试环境,并利用概率图模型方法增强模型的导航能力,最终量化评估了七种不同大型语言模型的能力,发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距,同时证实了概率图模型增强了所有模型的能力,平均提高了 50%。
Nov, 2023
大型语言模型在最近几年取得了迅猛的进展,其能力正在不断加速,通过各种基准测试,其能力接近于人类的水平。由于存在未解决的脆弱性和限制,人们在将这些模型应用于智能和安全关键应用之前需要谨慎。本文回顾了与 LLM 评估和脆弱性相关的最新文献,综合当前的研究进展,并帮助了解哪些进步对于在智能和安全关键应用中使用这些技术最为关键。这些脆弱性被分为十个高级类别,并与 LLM 的一个高级生命周期进行了叠加。还对一些常见的缓解措施进行了综述。
Dec, 2023
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
Aug, 2023
通过观察人类与大型语言模型(LLMs)的对话,本研究基于数据驱动的方法,对 LLMs 的治理和调节进行了归纳性分析,并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外,研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围,指出了人类在有效与 LLMs 互动方面存在的文盲问题。
Nov, 2023