- 被污染的 LangChain: LangChain 破解 LLMs
通过 LangChain 实现 Retrieval-Augmented Generation,我们提出了间接破解和一种新的间接破解攻击方法 ——Poisoned-LangChain (PLC),该方法使用毒化的外部知识库与大型语言模型进行交 - 对大型语言模型的后门攻击和防御调研:对安全措施的影响
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
- AutoBreach: 通用和自适应的越狱技术与高效的文字指导优化
通过 AutoBreach 方法生成映射规则来打破大型语言模型的安全防御机制,以识别安全漏洞并提高破解成功率。
- AI 风险管理应同时考虑安全与保障
介绍了 AI 安全和 AI 安全漏洞之间的相互作用,讨论了定义上的不一致和缺乏共识,并引入一个统一的参考框架来澄清 AI 安全和 AI 安全之间的差异和相互作用,旨在促进不同社区之间的共识和有效合作。
- 跨模态越狱与医疗多模态大语言模型的不匹配攻击
介绍了 MedMLLMs(医学环境下的多模态大型语言模型)的安全漏洞,并提出了两种攻击类型(2M-attack 和 O2M-attack),并通过构建 3MAD 数据集进行评估,指出即使设计具有增强安全功能的 MedMLLMs 也存在安全漏 - CVPR物理后门:面向物理世界的基于温度的后门攻击
该研究首次在物理和数字领域中研究与热红外物体检测相关的后门攻击的安全漏洞,并介绍了两种新型的后门攻击类型:物体影响攻击和范围影响攻击。通过对温度、尺寸、材料和隐藏等关键因素的全面分析,特别是温度的影响,揭示了后门攻击对热红外物体检测的有效性 - ICLR大型语言模型的第三方 API 攻击
本研究提出了一种新的攻击框架,旨在检验第三方 API 与大型语言模型平台的安全漏洞,通过对广泛使用的大型语言模型进行实证分析,发现了可悄无声息地修改模型输出的实际恶意攻击,探讨了第三方 API 集成带来的独特挑战,并提出了未来改善大型语言模 - LLMs 在 Web 开发中:评估 LLM 生成的 PHP 代码揭示的漏洞和局限性
该研究通过分析一组包含 2,500 个小型动态 PHP 网站的数据集,全面检查了大型语言模型生成的 Web 应用程序代码安全性。评估了这些部署为独立网站的人工智能生成网站中的安全漏洞,并采用了 Burp Suite 主动扫描器、静态分析和手 - JailbreakLens:针对大型语言模型的越狱攻击的可视化分析
通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。
- ACL多语言机器翻译的后门攻击
多语言机器翻译系统存在安全漏洞,通过在低资源语言对中注入毒数据,可以在其他语言中引发恶意翻译,攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面,希望引起人们对机器翻译系统的安全问题的重视,尤其是在低资源语言环境中。
- LLM 安全风险评估:全面的利益相关方风险评估方案
利用 OWASP 风险评估方法,通过场景分析确定潜在威胁者并将系统组成部分与漏洞因素进行映射,从而评估网络攻击的可能性,并进一步进行综合影响分析以得出威胁矩阵,以提供对 LLM 相关风险的全面评估,帮助利益相关者制定有效的缓解策略。
- WWWJavaScript 程序中基于大规模语言模型的漏洞修复研究
本研究探讨了 ChatGPT 和 Bard 这两个大型语言模型在发现和修复 JavaScript 程序中的安全漏洞方面的准确性,以及提示语境对定位 LLMs 生成正确补丁的影响。实验结果显示,虽然 LLMs 在自动修复 JavaScript - EasyJailbreak:面向大型语言模型的统一越狱框架
EasyJailbreak 是一个统一的框架,简化了对大型语言模型的越狱攻击的构建和评估,支持 11 种不同的越狱方法,并揭示了各种越狱攻击下 10 种不同语言模型的平均漏洞概率为 60%,GPT-3.5-Turbo 和 GPT-4 的平均 - 利用线性逻辑方法进行软件漏洞和功能评估
通过研究使用大型语言模型(LLMs)在代码审查中的作用,其中包括检测安全漏洞和验证软件功能的有效性,本文发现大型专有模型在这些任务上的性能显著优于小型开源模型,并证明了 LLMs 能够生成与真实漏洞相关的详细描述。
- 多标签机器学习检测安全相关方法
Dev-Assist 是一个 IntelliJ IDEA 插件,使用多标签机器学习方法检测具有安全相关性的方法,并考虑标签之间的依赖关系,能够自动生成静态分析工具的配置并显示结果,从而减少配置和使用静态分析工具所需的手动工作。
- BSPA:探索图像生成器的黑盒隐秘提示攻击
通过黑盒 API,利用万能和可迁移的提示来提高图像生成器的安全性,并建立了一个自动提示工具和一个全面的提示攻击数据集,以探究各种黑盒模型的安全漏洞。
- 基于大型语言模型推荐的隐蔽攻击
最近,大型语言模型对推荐系统的进展起到了重要作用,但是在系统蓬勃发展的同时,推荐系统容易受到安全威胁,我们揭示了引入大型语言模型到推荐模型中会导致新的安全漏洞,并且证明了攻击者可以通过改变物品的文本内容来显著提高其曝光度,而不影响模型的训练 - 利用人工智能规划检测云安全漏洞
云计算服务、安全漏洞、访问控制策略、PDDL 模型和亚马逊 AWS 云配置是本研究的五个关键词,该研究提出了一个通用框架来表达云系统中不同云对象之间的关系,以建立访问控制策略,并使用 PDDL 模型检测安全漏洞,从而测试 14 个真实的亚马 - 分布式学习中的私有知识共享:一项调研
人工智能的崛起已经在许多行业中引发了革命性的变革,其广泛应用导致了 AI 和其底层数据在许多智能系统中的分布。本文针对分布式学习中的私有知识共享提供了一项深入调查,检验了在主要的分布式学习架构中使用的各种知识组件。通过分析,我们揭示了在分布 - 评估 200 + 定制 GPT 的提示注入风险
本文提供了一份对 AI 自定义 GPT 模型中提示注入的分析,并评估了此类攻击的可能缓解措施,结果强调了在设计和部署可定制的 GPT 模型时迫切需要强大的安全框架,以确保 GPT 定制化的好处不会以安全和隐私的牺牲为代价。