API 保护的 LLMs 泄露了专有信息

Mar, 2024

Logits of API-Protected LLMs Leak Proprietary Information

Matthew Finlayson, Swabha Swayamdipta, Xiang Ren

TL;DR大规模语言模型（LLMs）的商业化导致了对专有模型进行高级 API 访问的常见做法。然而，我们的研究发现，即使在对模型架构保守假设的情况下，通过相对较少的 API 查询（例如，OpenAI 的 gpt-3.5-turbo 下成本不到 1000 美元），仍然可以从 API 保护的 LLM 中获取大量非公开信息。此研究发现的核心观察结果是：大多数现代 LLM 都存在 softmax 瓶颈，这会将模型输出限制在完整输出空间的线性子空间内。我们展示了这一现象可用于建立模型图像或模型特征，从而具备多种功能，包括高效发现 LLM 的隐藏大小、获取完整词汇输出、检测和消除不同的模型更新、根据单个完整 LLM 输出确定源 LLM，甚至估计输出层参数。我们的实证研究证明了我们方法的有效性，根据我们的方法，我们估计 OpenAI 的 gpt-3.5-turbo 的嵌入大小约为 4,096。最后，我们讨论了 LLM 供应商可以采取的保护措施，以及这些功能如何被视为一种特性（而非 Bug），通过实现更高的透明度和责任可得到更多好处。

Abstract

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of

large language models api queries softmax bottleneck model signature embedding size

发现论文，激发创造

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有 39% 和 57% 的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

MAP-Neo：高能透明的双语大型语言模型系列

开源研究中心提供了 MAP-Neo，一个具有可比较性的高性能透明双语语言模型，并公开了所有细节以复现该模型，以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。

May, 2024

Janus 界面：大型语言模型中的微调如何放大隐私风险

利用微小的个人可识别信息数据集完成 GPT-3.5 的微调，可以导致大量隐藏的个人信息被揭示。

Oct, 2023