LLM 的以指令为中心的回应有多 (不) 道德？揭示安全保护措施在有害查询中的脆弱性

Feb, 2024

LLM 的以指令为中心的回应有多 (不) 道德？揭示安全保护措施在有害查询中的脆弱性

How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries

PDF

Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee

TL;DR在本研究中，我们探讨了大型语言模型（LLMs）在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力，但它们可能被各种复杂的方法欺骗，产生有害或不道德的内容，其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上，即 LLMs 在生成以指令为中心的响应（如伪代码、程序或软件片段）与普通文本相比，会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题，该数据集包含应以文本和以指令为中心的格式（如伪代码）作答的复杂查询，旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs，包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B，并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言，我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标，我们还研究了使用 ROME 技术进行模型编辑的影响，这进一步增加了产生不良内容的倾向。具体而言，要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。

Abstract

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, the

large language models safety ethical use instruction-centric responses unethical content

发现论文，激发创造

互动伦理学：减轻 LLM 中的安全威胁

通过探讨语言学习模型的安全威胁，本文全面研究了一系列涉及伦理道德的挑战，包括数据安全、隐私保护等问题，提出了一种定制的评估工具，用于加强语言学习模型的后端系统，并在测试阶段评估其伦理维度与社会伦理价值之间的一致性。

Jan, 2024

迫使他们坦白！从（生产）LLM 中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到 92％，速度快 10 到 20 倍，对编码任务也适用。

Dec, 2023

大型语言模型中不道德建议的测试和修复：使用建议 - 批判 - 反思过程

本文提出了第一个用于测试和修复 LMMs 不道德建议的框架，包括测试套件 ETHICSSUITE、建议 - 评论 - 反思（SCR）流程、在线修复方案等，并使用 ETHICSSUITE 测试了 7 个流行的 LMM，发现了总计 109824 个不道德建议，并在 Llama-13B 和 ChatGPT 上应用了 OTF 方案，为更加注重伦理的 LMMs 铺平了道路。

May, 2023

透过上下文学习揭示基础大型语言模型的滥用潜力

大型语言模型的开源加速应用开发、创新和科学进步，但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明，基础语言模型能够有效地解释和执行恶意指令，此漏洞无需特殊知识或训练即可被操纵，强调了对基础语言模型安全协议的紧急关注的重大风险。

Apr, 2024

跳出规则：多轮对话中大型语言模型的安全漏洞

人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Feb, 2024

尽管具有 “超人类” 表现，当前的 LLM 系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM 的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

从心理测量学角度攻击大型语言模型以评估隐性偏见

大型语言模型（LLMs）的普及引发了对其可能产生的不道德内容的增加关注。本文通过利用精心设计的指令进行攻击，以评估 LLMs 对特定群体的潜在偏见。我们提出了三种攻击方法（伪装、欺骗和教授），并构建了四种常见偏见类型的评估数据集。对典型 LLMs 进行了广泛评估，结果显示：1）所有三种攻击方法都非常有效，特别是欺骗攻击；2）GLM-3 在防御我们的攻击方面表现最佳，相比之下 GPT-3.5 和 GPT-4 则较差；3）当以一种偏见类型进行教授时，LLMs 可能会输出其他类型的内容。我们的方法提供了一种可靠而有效的评估 LLMs 潜在偏见的方式，并有助于评估 LLMs 的潜在伦理风险。

Jun, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

你真的跟随我吗？评估大型语言模型的稳健性的对抗性指令

通过实验，我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性，并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。

Aug, 2023