人类反馈的阴暗面：通过用户输入毒化大型语言模型

Sep, 2024

人类反馈的阴暗面：通过用户输入毒化大型语言模型

The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs

Bocheng Chen, Hanqing Guo, Guangjing Wang, Yuanda Wang, Qiben Yan

TL;DR本研究探讨了大型语言模型在用户反馈驱动下的潜在漏洞，提出了一种新型的通过用户提供的提示进行毒化攻击的策略。关键发现是，即使在不知目标模型的情况下，这种攻击也能显著降低模型在特定关键词上的性能，揭示了利用用户生成提示时隐含的安全隐患。

Abstract

Large Language Models (LLMs) have demonstrated great capabilities in natural language understanding and generation, largely attributed to the intricate alignment process using human feedback. While alignment has become an essential training component that leverages data collected from

发现论文，激发创造

指导调整期间的语言模型中毒

本研究表明对instruction-tuned LMs输入恶意抽样将导致模型预测失准，大型LMs在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023

潜在破解: 用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱Prompts数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的LLMs不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为POISONPROMPT的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

关于使用人类反馈进行强化学习对大型语言模型的可利用性研究

通过RankPoison的毒化攻击生成带指定的恶意行为的污染数据集，可以对LLMs进行攻击，生成更长的令牌，而不损害原始安全对齐性能，这突显了RLHF中存在的关键安全挑战，强调了LLMs更强韧对齐方法的必要性。

Nov, 2023

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的1%即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

语言障碍：剖析LLMs在多语言环境中的安全挑战

本文探讨大型语言模型在多语言环境中的安全挑战，并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应，我们发现低资源语言中的恶意提示往往导致不安全的回答，并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外，我们发现提高模型对高资源语言的训练并没有带来显著改善，表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战，并希望这些发现能指导未来的研究。

Jan, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

通过模糊输入对大型语言模型进行越狱

通过采用ObscurePrompt方法，从模糊的文本入手，并利用强大的LLM进行迭代转换，增强攻击的稳健性，从而提高对LLM的破解效果，并改进先前的方法，以增强LLM的对齐性能。

Jun, 2024