- 软提示威胁:通过嵌入空间在开源 LLMs 中攻击安全对齐和遗忘
该研究探讨了开源 LLM 模型中潜在的敌对攻击方法,发现利用嵌入空间进行攻击可以更高效地触发危险行为,并提出了一种新的威胁模型,展示了嵌入空间攻击从正在学习和删除的 LLM 模型中提取已删除信息的能力。
- 黑匣子攻击评估中的陷阱
通过对威胁模型建立一个新的分类系统,本研究揭示了各种黑盒攻击的未被充分探索的威胁空间,强调了对攻击成功率进行更真实评估的重要性。
- 通过移动目标防御减轻分散联合学习中的通信威胁
这篇论文通过揭示分散式联邦学习(DFL)通信潜在风险,介绍一种专为 DFL 平台设计的安全模块,结合对称和非对称加密以及移动目标防御(MTD)技术,有效地应对通信攻击,并通过实验证实了该安全模块的有效性。
- 大型语言模型对误导性污染的风险
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减 - 机器学习模型适当的知识产权保护机制鉴别:水印、指纹、模型访问及攻击的系统化
对机器学习中的知识产权保护进行了系统研究,建立威胁模型,将攻击和防御措施分类在一个统一且综合的分类法中,从而弥合机器学习和安全社区之间的研究。
- 深度强化学习中的奖励延迟攻击
这篇论文探讨了一种新型攻击方法,利用强同步假设漏洞,将奖励信息延迟一段时间以影响强化学习中的 Q-learning 算法,攻击模式可分为有目标攻击和无目标攻击,同时提出了一种威胁模型以抵抗奖励信息的顺序被篡改的攻击。
- 通过修改模型直接获得联邦学习中的私人数据
这项研究介绍了一种基于最小但恶意修改的共享模型架构的新威胁模型,使服务器能够直接从梯度更新中获取用户数据的逐字副本,即使是在大批量情况下的用户数据也能被这些略有修改的模型重构。
- EMNLP使用自然语言模型生成偏见新闻的威胁
本文利用威胁模型,展示公开可获得的语言模型能够可靠地生成偏见新闻内容,并使用可控文本生成生成大量高质量的偏见新闻文章。通过 80 个参与者的主观评价,证明所生成的偏见新闻通常是流畅的;通过 24 名参与者的偏见评估,证明所生成文章的偏见(左 - 机器学习中隐私攻击调查
对机器学习中隐私攻击的分类及防御方法进行了研究和探讨。
- ICLR改进的图像 Wasserstein 攻击与防御
本文研究了图像扰动的鲁棒性问题,提出了一种新的基于 Wasserstein 距离的威胁模型,并在此基础上探讨了更强的攻击和防御方法,最后发现当前的 Wasserstein-robust 模型在抵御真实世界中的扰动方面存在的局限性。
- 基于物理的攻击在网络物理系统中的形式化方法(扩展版)
运用形式化方法对 Cyber-Physical Systems 中受物理攻击的传感器和执行器进行完整性和拒绝服务攻击的形式化处理,提出了威胁模型,度量攻击成功率,使用 Uppaal SMC 作为静态安全性分析工具进行实例分析。