Mar, 2024

API 保护的 LLMs 泄露了专有信息

TL;DR大规模语言模型(LLMs)的商业化导致了对专有模型进行高级 API 访问的常见做法。然而,我们的研究发现,即使在对模型架构保守假设的情况下,通过相对较少的 API 查询(例如,OpenAI 的 gpt-3.5-turbo 下成本不到 1000 美元),仍然可以从 API 保护的 LLM 中获取大量非公开信息。此研究发现的核心观察结果是:大多数现代 LLM 都存在 softmax 瓶颈,这会将模型输出限制在完整输出空间的线性子空间内。我们展示了这一现象可用于建立模型图像或模型特征,从而具备多种功能,包括高效发现 LLM 的隐藏大小、获取完整词汇输出、检测和消除不同的模型更新、根据单个完整 LLM 输出确定源 LLM,甚至估计输出层参数。我们的实证研究证明了我们方法的有效性,根据我们的方法,我们估计 OpenAI 的 gpt-3.5-turbo 的嵌入大小约为 4,096。最后,我们讨论了 LLM 供应商可以采取的保护措施,以及这些功能如何被视为一种特性(而非 Bug),通过实现更高的透明度和责任可得到更多好处。