- 利用反事实图像强化预训练模型
该论文提出了一种新的框架,通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点,并将对抗图片作为增加的数据集来微调和加固分类模型,研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。
- garak: 大型语言模型安全探测框架
介绍了一种名为 garak 的框架,可以发现和识别目标大型语言模型或对话系统中的漏洞,从而为漏洞在不同背景下的构成、LLM 部署的对齐和政策讨论等提供了有根据的讨论。
- 深度学习系统的安全弱点和漏洞
通过对 AI 软件系统中深度学习技术的脆弱性进行系统研究,我们提出了一个两流数据分析框架,探索各种数据库中的脆弱性模式,并进行了大规模实证研究来理解脆弱性的模式和修复中的挑战,以推进安全的深度学习系统的发展。
- AI 代理的安全性
通过研究典型 AI 代理的工作流程和体验,我们从系统安全的角度详细描述了 AI 代理中存在的潜在漏洞,强调了其原因和严重影响,并介绍了相应的防御机制及其有效性评估实验,从而让 AI 代理的安全性和可靠性得到进一步提升。
- 对大规模语言模型的对抗欺骗攻击效率
使用五种不同的大型语言模型(LLMs)进行情感分类任务时,针对三种不同类型的对抗攻击,该研究分析了攻击的有效性、效率和实用性,发现词级攻击更有效,而字符级攻击则更实用且所需的改动和查询数量较少,因此在开发对抗性防御策略以训练更具鲁棒性的 L - 人工评估指南中对漏洞的定义和检测:实现可靠的自然语言生成评估的初步研究
通过收集从现有论文中提取的指南注释以及由大型语言模型(LLMs)生成的指南注释,我们提出了第一个人工评估指南数据集,并引入了八种漏洞的分类和组成评估指南的原则。此外,我们还探索了使用 LLMs 检测指南漏洞的方法,并提供了一套增强人工评估可 - 安全对齐不应仅限于几个标记
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLM - 小型语言模型中的本地 AI 是否易损且可利用?评估其信任和道德性
我们的研究首次探索了基于设备的人工智能(AI)中的信任和道德问题,着重于适用于智能手机等个人设备的 “小型” 语言模型(SLMs);结果显示,相比于基于云的服务,基于设备的 SLMs 明显更不可信,且存在严重漏洞和潜在的道德问题。
- 设计鲁棒远程人脸反欺诈系统原则
面部反欺骗、数字攻击、漏洞、威胁与鲁棒性是本研究的关键词。通过一系列实验,本文揭示了当前面部反欺骗检测技术的限制和其对新型数字攻击场景的失败。为了抵御这些新型攻击的漏洞,本文提出从模型准确性、鲁棒性到流程鲁棒性和平台鲁棒性的关键设计原则。尤 - BadRAG:大型语言模型检测检索增强生成中的漏洞
通过结合检索式方法和生成模型,提出了 TrojRAG 来识别检索部分(RAG 数据库)的漏洞和攻击,并间接攻击生成部分(LLMs),通过中毒定制内容来实现检索后门和语义操纵,这些攻击可以包括 RAG 的拒绝服务攻击和以触发器为条件的生成 L - 通过探索进行 Fine-Tuning 的大型语言模型,转变计算机安全与公众信任
探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞,以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术,从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护 - 多任务学习中的隐藏任务的对抗攻击
该研究论文调查了针对多任务分类器中隐藏任务的攻击的可行性,提出了一种新颖的敌对攻击方法,利用非目标任务的知识和多任务模型的共享主干网络迫使模型遗忘与目标任务相关的知识,实验证明了该方法在削弱隐藏任务的准确性方面的有效性,并且保留了可见任务的 - 利用大型语言模型进行软件漏洞检测:综合基准研究
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
- 重新思考鲁棒性评估:基于学习的四足动力学控制器的对抗攻击
通过串行对抗攻击来识别学习行动控制器的弱点,验证了即使是最先进的鲁棒控制器也可能在设计良好、低幅度的对抗序列下显著失败,并展示了该方法生成的结果如何用于加强原始策略并深入了解这些黑盒策略的安全性。
- 从地下黑客论坛推断关于漏洞利用的讨论主题
通过主题建模分析并发现地下黑客论坛中讨论的漏洞的关键主题,从而开发出一种基于机器学习的模型,能够自动检测和分类地下黑客论坛中与漏洞相关的讨论。
- 评估大型语言模型的对抗性鲁棒性:一项实证研究
对大型语言模型的鲁棒性进行了攻击和评估,并在五项不同的文本分类任务上建立了新的鲁棒性基准,研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。
- 中性提示是否会产生不安全的代码?FormAI-v2 数据集:标记大型语言模型生成的代码中的漏洞
本研究比较分析了最先进的大型语言模型(LLMs),研究了它们使用中性的零 - shot 提示来编写简单 C 程序时生成漏洞的可能性。通过引入 FormAI-v2 数据集,该研究扩展了之前的工作,并包含了使用各种 LLMs 生成的 265,0 - 研究多轮 LLM 交互的提示泄露效应和黑盒防御
对大型语言模型(LLMs)中的提示泄漏进行了研究,发现在多轮 LLM 交互中存在漏洞和泄漏,并提出了防御策略。
- 超越随机输入:一种基于机器学习的硬件模糊测试
现代计算系统在硬件作为信任根基上依赖较重。然而,不断增加的复杂性导致了跨层攻击可以利用的安全关键弱点。我们提出了一种新颖的基于 ML 的硬件模糊测试工具 ChatFuzz,它利用类似 ChatGPT 的 LLMs 来理解处理器语言,并通过代 - 狂放的伊卡洛斯:多模态大语言模型安全中图像输入的潜在危险调研
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。