自然语言处理中的用户中心安全
该研究旨在揭示自然语言处理算法易受攻击的弱点是否可能导致软件安全威胁。通过对常用于创建自然语言数据库接口的 Text-to-SQL 系统进行漏洞测试,作者发现 6 款商业应用程序的 Text-to-SQL 模块可以被操纵产生恶意代码,潜在地导致数据泄露和拒绝服务攻击,这是第一次演示了 NLP 模型可以作为攻击向量在野外被利用。此外,使用四个开源语言模型的实验验证了直接后门攻击 Text-to-SQL 系统可以在不影响其性能的情况下实现 100%的成功率。研究呼吁学术界和业界关注 NLP 算法相关软件安全问题,并鼓励探索缓解措施。
Nov, 2022
基于大型语言模型的系统,在用户隐私方面存在问题,需要更多关注人类隐私问题的研究,包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响,以及赋予终端用户对个人数据的拥有权的工具设计,在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论,为基于大型语言模型的系统中的隐私问题制定议程。
Feb, 2024
本文主要基于八项伦理原则,即:隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进,回顾了基于自然语言处理(NLP)的网络滥用内容检测的研究,并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。
Dec, 2020
本文介绍了 SecurityLLM,它是一个旨在检测网络安全威胁的预训练语言模型,其中 SecurityBERT 作为网络威胁检测机制,而 FalconLLM 则是一种事件响应和恢复系统,实验结果表明,我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。
Jun, 2023
本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式,提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP,SoadNLP) 的研究重点应该放在考虑真实的对手目标,并以此为基础设计实际有用的攻击和防御方法,为此我们创建了一个新的数据集 Advbench,并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验,我们的方法表现获得了更高的实际价值,为 SoadNLP 的研究提供了一个新的基准。
Oct, 2022
本文介绍了一种利用自然语言处理技术应用于网络安全领域的生成式多任务模型(UTS),该模型能够训练并应用于多种网络威胁检测、漏洞检测和社交媒体数据处理任务,能提高网络安全数据集的性能,同时减少了人工验收数据的成本。
Feb, 2023
综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战,提出了一种新的分类方法,介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用,并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。
Mar, 2022
本文提出了一种用于评估自然语言处理模型的新的抽象框架,通过明确研究人员之间的某些对抗角色,这有助于定义不同角色在评估中的贡献,并鼓励更早的错误分析,这个框架可以用多种方式实例化,并模拟一些熟悉的内部和外部评估以及一些新的评估。
Jul, 2012
本文探讨了不同的自然语言处理和机器学习技术,以提取关于网络攻击者战术、技术和过程(TTP)的安全信息,并提出了一个基于已知对手策略、技术和程序知识库的自动分类非结构化文本的数据处理管道。
Jul, 2022
本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架,并通过对抗训练进一步加强了受害模型的预测,使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。
Oct, 2020