通过数据整理提高安全对齐的大型语言模型鲁棒性

May, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

Robustifying Safety-Aligned Large Language Models through Clean Data Curation

Xiaoqun Liu, Jiacheng Liang, Muchao Ye, Zhaohan Xi

TL;DR我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有 5% 有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

Abstract

large language models (LLMs) are vulnerable when trained on datasets containing harmful content, which leads to potential jailbreaking attacks in two scenarios: the integration of harmful texts within crowdsource

large language models vulnerable adversarial influences data curation llm robustness

发现论文，激发创造

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

大型语言文本生成实时保障框架

LLMSafeGuard 是一个轻量级框架，通过将外部验证器集成到束搜索算法中，在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能，减少了 LLM 输出的有毒评分，并减小了版权内容的重复率。此外，LLMSafeGuard 的上下文选择策略降低了推断时间，并提供可调整参数来平衡效果和效率。

Apr, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

用于鲁棒语言模型微调的自动数据整理

通过自动数据加工管道 CLEAR (Confidence-based LLM Evaluation And Rectification) 对指令调谐数据集进行自动加工，提高模型性能。

Mar, 2024

模仿用户数据：关于减轻封闭式大型语言模型的微调风险

在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能，我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险，并提出了一种新的缓解策略，该策略在维持相似任务性能的同时，更有效地重新建立安全对齐。

Jun, 2024

确保安全和高质量的输出：面向语言模型的指南库方法

为了解决大型语言模型存在的偏见内容生成和隐私问题，研究引入了 Guide-Align 方法，该方法通过安全训练模型识别潜在风险并建立指南和模型库，然后用于新输入的相关指导，以确保安全和高质量输出，还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量，尤其是在 13 亿参数下，优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。

Mar, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023