MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题

Jan, 2024

MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题

MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse Worlds

Xiaolong Jin, Zhuo Zhang, Xiangyu Zhang

TL;DR我们发现大型语言模型在不同环境下存在不同程度的对齐问题，并通过构建多个上下文（称为世界）并利用相应的编译器，低成本地暴露潜在的对齐问题，从而进行大规模的对 LLM 对齐问题的研究，结果表明我们的方法在效果和效率上优于现有的破解技术。此外，我们的结果表明，现有的 LLMs 在嵌套世界和编程语言世界中存在极高的漏洞性，这暗示现有的对齐训练偏重于真实世界，对 LLMs 在各种（虚拟）世界中的潜在利用存在缺失。

Abstract

Large Language Model (LLM) alignment aims to ensure that LLM outputs match with human values. Researchers have demonstrated the severity of alignment problems with a large spectrum of jailbreak techniques that can induce LLMs to produce malicious content during conversations. Finding t

large language model alignment jailbreak techniques llm alignment issues worlds latent alignment issues

发现论文，激发创造

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

大型语言模型中越狱攻击的跨语言调查

通过广泛的实证研究，我们对多语言越狱攻击进行了深入探究，提出了一种新的语义保持算法来创建多语言越狱数据集，并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估，并实施了微调缓解方法。我们的发现显示出，我们的缓解策略显著增强了模型的防御能力，将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。

Jan, 2024

通过强鲁棒对齐的 LLM 防御对齐破坏攻击

最近，大型语言模型（LLMs）取得了明显的进展，并在各个领域得到广泛应用。然而，人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型（RA-LLM），它可以直接在现有的对齐语言模型上构建，无需进行昂贵的重训练或微调过程。此外，我们还提供了对 RA-LLM 的理论分析，以验证其在抵御破坏对齐攻击方面的有效性。通过对开源大型语言模型进行的实际实验，我们证明 RA-LLM 可以成功抵御最先进的对抗性提示和流行的手工破解提示，将其攻击成功率从近 100％降低到约 10％或更低。

Sep, 2023

从 LLMs 到 MLLMs：探索多模态越狱的领域

大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的快速发展暴露了各种对抗性攻击的漏洞。本文综述了针对 LLMs 和 MLLMs 的越狱研究的最新进展，重点介绍了评估基准、攻击技术和防御策略。与单模态越狱的更先进状态相比，多模态领域仍未得到充分开发。我们总结了多模态越狱的限制和潜在研究方向，旨在激发未来研究，进一步增强 MLLMs 的鲁棒性和安全性。

Jun, 2024

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式

本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。

Jun, 2024

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

透过上下文学习揭示基础大型语言模型的滥用潜力

大型语言模型的开源加速应用开发、创新和科学进步，但对于基础语言模型的固有指令限制是否可以防止滥用的普遍假设存在关键的疏忽。我们的研究通过精心设计的演示表明，基础语言模型能够有效地解释和执行恶意指令，此漏洞无需特殊知识或训练即可被操纵，强调了对基础语言模型安全协议的紧急关注的重大风险。

Apr, 2024

LLM 对全球表征的非预期影响

通过对大型语言模型进行对齐，开发人员可以根据用户的偏好通过多种程序（如强化学习自人类反馈和直接偏好优化）将其用于面向用户的应用程序。然而，当前的评估过程侧重于指令遵循、推理和真实性等基准，而人类偏好并非普遍存在，对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能，包括英语方言、多语言和全球各国的观点。研究结果表明，当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后，我们讨论了导致这些意外影响的设计决策，并提出了更公平的偏好调整建议。

Feb, 2024

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024