对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

Nov, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective

PDF

Zi Yin, Wei Ding, Jia Liu

TL;DR我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Abstract

large language models (LLMs) are central to a multitude of applications but struggle with significant risks, notably in generating harmful content and biases. Drawing an analogy to the human psyche's conflict bet

large language models conflict adversarial attacks alignment methods modal concepts

发现论文，激发创造

开源大型语言模型的安全性：对齐是否真的能防止滥用？

通过直接操纵开放源代码的大型语言模型的生成过程，我们展示了它们容易被引导生成不受欢迎的内容，包括有害或有偏见信息甚至私人数据，这表明需要更先进的开源语言模型缓解策略。

Oct, 2023

从挫折中获益：通过错误分析对齐大型语言模型

通过暴露大型语言模型存在的缺陷输出并进行彻底评估，该研究提出了一种根据错误分析的新型对齐策略，以完全理解其内部原因，并将有害回应转化为模型对齐的指令调整语料库，从而不仅使 LLMs 不再产生有缺陷的回应，还可训练其自我批评，并利用其判别有毒内容的内在能力，实验结果表明，该方法在安全指令跟踪方面优于传统对齐技术，同时保持卓越的效率。

Oct, 2023

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

透过上下文学习揭示基础大型语言模型的滥用潜力

大型语言模型的开源加速应用开发、创新和科学进步，但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明，基础语言模型能够有效地解释和执行恶意指令，此漏洞无需特殊知识或训练即可被操纵，强调了对基础语言模型安全协议的紧急关注的重大风险。

Apr, 2024

大语言模型对意识形态操控的易感性研究

大型语言模型（LLMs）可能对公众对信息的认知和互动产生重大影响，因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果，并揭示了令人担忧的脆弱性：仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识，尤为显著的是，LLMs 展示了吸收一个主题的意识形态，并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险，这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。

Feb, 2024

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

LLMs 在非法目的中的使用：威胁、预防措施和漏洞

本文在探讨大语言模型的发展和分发迅速增长的背景下，关注其安全和安全相关威胁和漏洞的最新研究工作，并提供了已有的科学努力概述，以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作，希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。

Aug, 2023

道义使命：对大型语言模型持续超对齐的需求

探讨实现 AI 系统中的终身超对齐所面临的挑战，特别是大型语言模型（LLMs）；超对齐是一个理论框架，旨在确保超级智能 AI 系统按照人类的价值观和目标行动；我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变，因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性；通过分析两个不同的例子，我们阐明 LLM 面对训练数据的限制，无法与当代人类价值观和情景相契合；最后，本文探讨了解决和可能减轻这种对齐差异的潜在策略，提出了追求更适应和响应性的 AI 系统的路径。

Mar, 2024