通过有向表示优化的提示驱动的 LLM 保护
我们提出了第一个具有可验证安全保证的消除 - 检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御,并且在保证处理安全提示的性能的同时,显著提高了在有害提示上的安全保证指标。
Sep, 2023
通过引入 Constrained DPO (C-DPO) 方法,本研究提出了一种高效且轻量级的方法,用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束,从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。
Mar, 2024
自动回归选择性替代提升(ASRA)是一种离散优化算法,基于优质性和决定性点过程(DPP)的相似性选择提示,以发现和修改预训练语言模型潜在的有害输出。实验结果表明,ASRA 在六种不同的预训练语言模型上有效地引发了有害内容,并显示出与目标输出的困惑程度之间的强相关性,而与模型参数数量的相关性有限。
Mar, 2024
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024
该研究论文提出了一种自动提示分解和重构框架(DrAttack),通过将恶意提示分解为子提示,并通过上下文学习和同义词搜索来实现重新组装,从而有效地模糊其恶意意图,以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明,DrAttack 能够显著降低查询次数,并在仅使用 15 个查询时,在 GPT-4 上获得了 78.0%的成功率,超过了以前的最佳攻击方法的 33.1%。
Feb, 2024
大型语言模型的安全性是一个重要问题,本研究提出了 Adversarial Prompt Shield(APS)这个轻量级模型,能够有效检测和抵御对抗抓取;同时,我们还引入了自动生成对抗训练数据集的新策略,命名为 Bot Adversarial Noisy Dialogue(BAND)数据集,以提高安全分类器的鲁棒性。经过评估,我们的分类器成功率提高了 60%,为下一代更可靠和韧性更强的对话代理铺平了道路。
Oct, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
我们提出了一种名为 DP-OPT 的新解决方案,通过在客户端调整离散提示,然后应用到所需的云模型上,解决了将数据发送给模型提供者进行训练时面临的隐私问题,确保离散提示不泄露个人信息。
Nov, 2023
通过使用单轨迹数据集,本研究提出了 DRO(Direct Reward Optimization)框架和相关算法,无需配对偏好数据,采用简单的均方误差目标函数实现。使用 T5 编码器 - 解码器语言模型进行实证验证,证实了 DRO 相对于 KTO 等基准模型在单轨迹策略优化方面的性能优势。
May, 2024
利用输出概率的不确定性构建新的方法 Deliberative PrOmpt RecoverY 来恢复模型的提示,通过改进和筛选提高了大型语言模型的性能,成为提示恢复任务中的标杆。
May, 2024