机器中的低语：LLM 整合系统中的保密性

Feb, 2024

机器中的低语：LLM 整合系统中的保密性

Whispers in the Machine: Confidentiality in LLM-integrated Systems

Jonathan Evertz, Merlin Chlosta, Lea Schönherr, Thorsten Eisenhofer

TL;DR本文提出了一种系统评估 LLM 集成系统中机密性的方法，通过形式化 “秘密密钥” 游戏来比较模型的脆弱性和不同防御策略的有效性，发现当前的防御策略在攻击策略方面缺乏泛化能力，并提出了一种受对抗训练启发的鲁棒性微调方法，有效降低了攻击成功率并提高了系统对未知攻击的弹性。

Abstract

large language models (LLMs) are increasingly integrated with external tools. While these integrations can significantly improve the functionality of LLMs, they also create a new attack surface where confidential data may be disclosed between different components. Specifically, malicio

large language models confidentiality llm-integrated systems attacks defense strategies

发现论文，激发创造

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有 39% 和 57% 的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

识别和减轻 LLM 集成应用程序中的漏洞

使用大型语言模型（LLMs）作为 LLM 集成应用程序的服务后端的情况下，我们发现了潜在的攻击面和漏洞，并开发了一种轻量级、抗威胁的防御方法，以最大程度减少威胁并保证应用程序的完整性、来源识别、攻击可检测性和实用性保留。

Nov, 2023

基于 LLM 的推荐系统中的隐私保护：最新进展与未来发展方向

最近，大语言模型（LLMs）已经与传统的推荐模型相结合，以提高推荐性能。然而，尽管大多数现有的研究都集中在提高模型性能方面，但隐私问题只得到了相对较少的关注。在本文中，我们对基于 LLMs 的推荐系统中的隐私问题进行了综述，将其分为隐私攻击和保护机制。此外，我们还强调了几个挑战，并提出未来研究的方向，以解决这些关键问题。

Jun, 2024

很抱歉，先生？您的语言模型正在泄露（信息）

使用加密方法在大型语言模型的回应中隐藏任意秘密负载，需要秘密密钥提取模型回应中的负载，负载不会影响生成文本的质量，扩展了 Christ、Gunn 和 Zamir（2023 年）引入的大型语言模型不可检测的水印方案。

Jan, 2024

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024

大型语言模型是高级匿名化工具

近期在隐私研究中，大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时，现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题，即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题：首先，我们提出了一个新的环境，在对抗性大型语言模型推理的情况下评估匿名化性能，从而在纠正以前的指标缺陷的同时，实现对匿名化性能的自然度量。然后，我们提出了基于大型语言模型的对抗性匿名化框架，利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中，我们展示了在真实世界和合成在线文本中，对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。

Feb, 2024

保护大型语言模型：威胁、漏洞和负责任的做法

对大型语言模型（LLMs）的安全与隐私问题进行了全面的研究，从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨，并提出了未来研究的有前景的方向，以增强 LLMs 的安全和风险管理。

Mar, 2024

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024