- 狂放的伊卡洛斯:多模态大语言模型安全中图像输入的潜在危险调研
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。
- 越狱快速攻击:一种针对扩散模型的可控对抗攻击
通过黑盒攻击方法和分类器自由引导的概念,本研究暴露和强调了现有防御机制的脆弱性,这给图像生成社区带来了安全问题。
- BadPart:面向像素级回归任务的统一黑盒对抗贴纸攻击
我们提出了第一个针对像素级回归任务的黑盒对抗性补丁攻击框架,旨在发现这些模型在查询式黑盒攻击下的漏洞,我们的攻击原型 BadPart 在垂直视角深度估计任务中击败了三种基线方法,灵活高效地生成补丁,且超越了现有的防御措施。
- 比较 ChatGPT 生成代码和 StackOverflow 答案的安全漏洞
将 ChatGPT 生成的代码与 StackOverflow 的代码进行比较,发现 ChatGPT 生成的代码存在较少的漏洞和较少的常见弱点枚举类型,结果表明开发人员对于两个平台的代码传播存在不安全的认识,需要采取良好的软件工程实践来降低风 - 潜在对抗性训练在未知故障模式中的防御
利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。
- ICLR富有信念的悲观 Q 学习用于对抗敌对状态扰动
我们提出了一种新的强化学习 (RL) 算法,通过得到一种悲观策略来保护代理对真实状态的不确定性,并结合置信状态推理和基于扩散的状态净化来降低不确定性,实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。
- 基于 LLM 的实际系统中的安全问题探索:LLM 安全的新时代
在本文中,我们系统地分析了 LLM 系统的安全性,通过建立信息流及其在 LLM 内部和 LLM 与其他对象之间的一致性约束,将 LLM 系统的攻击面分解为三个关键部分:多层安全分析,约束存在性分析和这些约束的鲁棒性分析。通过对最新的 LLM - 各种网络攻击检测的当前最先进机器学习方法的性能调查:综述
分析了过去 10 年来现有的最新机器学习模型及其对不同类型网络攻击的检测,以找出仍需进一步研究的领域。
- GPT 应用初探:概况与脆弱性
该研究论文探索了 GPT 商店的漏洞和抄袭问题,发现了大规模监控和分析商店以及提取 GPT 内部的有效工具,并揭示了 GPT 内部保护失效导致的广泛抄袭问题。
- 基于推理链的 ChatGPT 智能合约审计能力评估
通过实验结果表明,尽管 GPT-4 在智能合约漏洞检测方面表现不佳,但其在合约代码解析和实例证明编写方面表现出重要的潜力,可以作为辅助工具增强智能合约安全审计的效率和效果。
- 大型语言模型(LLM)在城市环境中的导航安全性如何?
近期在机器人和自动化领域中,基于大型语言模型的导航系统显示出了强大的性能,然而,这些系统的安全性方面却受到相对较少的关注。本文首次探索了城市室外环境中基于大型语言模型的导航模型的漏洞,这是一个关键领域,因为这项技术在自动驾驶、物流和紧急服务 - LLM 代理可以自主攻破网站
大型语言模型(LLMs)的能力不断增强,可自主破解网站漏洞和进行 SQL 注入等复杂任务,这引发了对 LLM 代理的进攻能力的研究。
- 将保障放在自治之上:LLM 代理在科学中的风险
通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学 Agent 的限制和挑战,并呼吁针对这些问题制定改进 - 大型语言模型上的早期提示注入攻击分类
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的 - 大型语言模型的安全与隐私挑战概述
该文综述了大型语言模型在安全与隐私方面面临的挑战,分析了其脆弱性,并审查了潜在的攻击方式与防御机制,还指出了该领域中的研究空白与未来发展方向。
- ICML实用自动语音识别与后处理:可解释错误基准指南的呼吁
通过提出一个 Speech 和 Text 综合考虑的 Error Explainable Benchmark 数据集,我们能够更全面地了解 ASR 模型的不足之处,消除系统的弱点,从而提高用户体验。
- 基于 FPGA 的汽车控制器区域网络零日入侵实时检测系统
使用无监督学习的卷积自编码器架构进行零日攻击检测,通过在仅有良性(无攻击)CAN 消息上训练模型,成功实现对未知攻击类型的高准确率分类,并且能够在高速 CAN 网络上实现线速检测,适用于关键 CAN 网络的零日攻击检测。
- 通过对抗电源迹线的逃避式硬件木马
本文研究硬件安全背景下的机器学习漏洞,主要聚焦在硬件木马、机器学习和侧信道分析,通过设计对抗噪声的方法来绕过机器学习侧信道分析,并提供开放的资源和设计。
- AIJack:机器学习的安全与隐私风险模拟器
AIJack 是一个开源库,旨在通过统一的 API 提供各种攻击和防御方法,以评估与训练和部署机器学习模型相关的安全和隐私风险。
- 自然语言处理中的安全对齐:以上下文攻击为例的弱对齐摘要
大型语言模型(LLMs)的有用性和安全性的平衡发展引发了一个关键问题:主流 NLP 任务是否与安全考虑足够一致?我们的研究聚焦于通过对抗性攻击获得的安全敏感文档,揭示了各种 NLP 任务的安全对齐存在显著差异。例如,LLMs 可以有效地总结