AI 控制：尽管存在故意违抗改善安全

Dec, 2023

AI 控制：尽管存在故意违抗改善安全

AI Control: Improving Safety Despite Intentional Subversion

Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger

TL;DR通过开发和评估能够抵御恶意破坏的安全技术（协议），我们研究了使用大型语言模型（LLMs）解决编程问题的场景，并且改进了现有的基准方法。

Abstract

As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety

large language models safety techniques protocols subversion backdoors

发现论文，激发创造

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对 AI 技术的信任。

Jan, 2024

技术报告：在压力下，大型语言模型能够战略性地欺骗其用户

我们展示了一种情况，即大型语言模型在没有受到指令或训练进行欺骗的情况下，可以展示出不对齐的行为，并以策略性方式欺骗其用户。

Nov, 2023

低资源语言越狱 GPT-4

我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞，通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明，GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议，并成功帮助用户实现有害目标的可能性高达 79％，这与甚至超过了最先进的越狱攻击。其他资源丰富 / 中等资源语言的攻击成功率显著较低，这表明跨语言漏洞主要适用于低资源语言。以前，对低资源语言的有限训练主要影响那些讲这些语言的人，导致技术差距。然而，我们的研究突出指出了一个关键性的转变：这种不足现在对所有语言模型用户构成风险。公开可用的翻译 API 使任何人都能利用语言模型的安全漏洞。因此，我们的工作呼吁加强整体红队测试工作，以开发具有广泛语言覆盖能力的强大多语言安全保护措施。

Oct, 2023

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

人工智能卫士的 LLM 辅助开发

通过对 GPT-4 在对抗机器学习领域的研究案例进行评估，发现它能够在攻击算法的实施上比作者更高效，并成功破解了 AI-Guardian 提出的方案，该方案在增加鲁棒性方面并不比未进行防御时的基线有所提高。

Jul, 2023

GPT-3 和先进神经语言模型的激进化风险

本文评估了 GPT-3 在生成极端主义文本方面的潜在滥用可能性，表明其在生成极端主义文本方面比之前的 GPT-2 取得了显着进展，并呼吁 AI 利益相关者、决策制定机构和政府采取措施来避免大规模的在线激进化和招募风险，并建立社会规范、公共政策和教育计划，以预防机器生成的谣言和宣传。

Sep, 2020

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

越狱：LLM 安全培训如何失败？

本文研究大型语言模型中的安全问题，提出两种安全训练的失败模式，分别是竞争目标和广义不符合。作者发现，这些安全问题无法通过红队测试和安全培训解决，并提出需要将安全机制的复杂度与模型的能力相匹配。

Jul, 2023