自然语言处理中的用户中心安全

Jan, 2023

User-Centered Security in Natural Language Processing

Chris Emmery

TL;DR本学位论文提出了一种用户中心的自然语言处理（NLP）安全框架，并演示了如何改进相关研究的可访问性。该框架主要研究语言上的对抗攻击，并探讨如何通过语言的对抗样本实现隐私保护，并评估文化变革和词汇增强对网络欺凌检测的影响。

Abstract

This dissertation proposes a framework of user-centered security in Natural Language Processing (NLP), and demonstrates how it can improve the accessibility of related research. Accordingly, it focuses on two security domains within NLP with great public interest. First, that of

user-centered security natural language processing author profiling cyberbullying detection adversarial attacks

发现论文，激发创造

文本到 SQL 模型的安全漏洞

该研究旨在揭示自然语言处理算法易受攻击的弱点是否可能导致软件安全威胁。通过对常用于创建自然语言数据库接口的 Text-to-SQL 系统进行漏洞测试，作者发现 6 款商业应用程序的 Text-to-SQL 模块可以被操纵产生恶意代码，潜在地导致数据泄露和拒绝服务攻击，这是第一次演示了 NLP 模型可以作为攻击向量在野外被利用。此外，使用四个开源语言模型的实验验证了直接后门攻击 Text-to-SQL 系统可以在不影响其性能的情况下实现 100％的成功率。研究呼吁学术界和业界关注 NLP 算法相关软件安全问题，并鼓励探索缓解措施。

Nov, 2022

大语言模型时代的以人为中心的隐私研究

基于大型语言模型的系统，在用户隐私方面存在问题，需要更多关注人类隐私问题的研究，包括设计范例对用户的行为披露、用户心智模型和隐私控制偏好的影响，以及赋予终端用户对个人数据的拥有权的工具设计，在此基础上构建可用、高效、具有隐私友好性质的系统。本文旨在启动关于人类隐私问题研究的讨论，为基于大型语言模型的系统中的隐私问题制定议程。

Feb, 2024

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

运用大型语言模型革新网络威胁检测

本文介绍了 SecurityLLM，它是一个旨在检测网络安全威胁的预训练语言模型，其中 SecurityBERT 作为网络威胁检测机制，而 FalconLLM 则是一种事件响应和恢复系统，实验结果表明，我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。

Jun, 2023

对抗性扰动为什么应该是不可察觉的？重新思考对抗性自然语言处理的研究范式

本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式，提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP，SoadNLP) 的研究重点应该放在考虑真实的对手目标，并以此为基础设计实际有用的攻击和防御方法，为此我们创建了一个新的数据集 Advbench，并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验，我们的方法表现获得了更高的实际价值，为 SoadNLP 的研究提供了一个新的基准。

Oct, 2022

探索在网络安全领域使用统一模型的迁移学习极限

本文介绍了一种利用自然语言处理技术应用于网络安全领域的生成式多任务模型（UTS），该模型能够训练并应用于多种网络威胁检测、漏洞检测和社交媒体数据处理任务，能提高网络安全数据集的性能，同时减少了人工验收数据的成本。

Feb, 2023

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

自然语言模型对抗性评估

本文提出了一种用于评估自然语言处理模型的新的抽象框架，通过明确研究人员之间的某些对抗角色，这有助于定义不同角色在评估中的贡献，并鼓励更早的错误分析，这个框架可以用多种方式实例化，并模拟一些熟悉的内部和外部评估以及一些新的评估。

Jul, 2012

结合自然语言处理和机器学习技术实现攻击者 TTP 自动分类

本文探讨了不同的自然语言处理和机器学习技术，以提取关于网络攻击者战术、技术和过程（TTP）的安全信息，并提出了一个基于已知对手策略、技术和程序知识库的自动分类非结构化文本的数据处理管道。

Jul, 2022

结构化预测模型的对抗攻击和防御

本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架，并通过对抗训练进一步加强了受害模型的预测，使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。

Oct, 2020