LLM 应用中 IP 保护的协议
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析,并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性,对各种类型的快速注入攻击具有相当的抵抗能力,从而验证了其作为一种强大的人工智能安全防御策略的潜力。
Jan, 2024
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
预训练语言模型(PLMs)在解决各种自然语言处理(NLP)任务上展现出显著的熟练度。研究人员观察到这些模型的性能和规模之间存在直接关联。最近几年,这些模型的规模明显扩大,研究人员因此采用了大型语言模型(LLMs)这一术语来描述规模较大的 PLMs。增加的规模伴随着一种称为上下文学习(ICL)的特殊能力,它代表了一种专门的提示形式。这使得 LLMs 能够通过展示演示例子的方式在保持模型参数冻结的同时,为特定的下游任务提供利用。尽管有趣,但隐私问题成为其广泛使用的主要障碍。多个研究已经考察了与 ICL 和提示一般相关的隐私风险,并提出了缓解这些风险的技术。因此,有必要为社区整理这些缓解技术。本综述提供了 ICL 和提示一般过程中采用的隐私保护方法的系统概述。我们对该范式下的不同方法进行了回顾、分析和比较。此外,我们提供了可用于开发这些框架的资源的概要。最后,我们讨论了这些框架的局限性,并对需要进一步探索的有希望的领域进行了详细的研究。
Apr, 2024
通过分析 Prompt 编辑行为和变化类型,以更好地理解 Prompt 工程实践,我们发现与大型语言模型的交互主要通过提示进行,并且有效提示设计取决于用户的迭代过程和目标的实现。
Mar, 2024
这篇论文介绍了一种名为 PromptCrypt 的加密机制,它使用表情符号对用户输入进行加密,保护用户隐私,无论对人类还是 LLM 自身都无法辨别敏感数据,同时保持模型的性能,实现与直接提示 LLM 相比,任务准确性可比甚至更优,突出了保护用户隐私而不损害 LLMs 的功能完整性和性能的加密措施的实用性。
Feb, 2024
在本研究中,我们提出了一种在局域网设置中部署的基于文本生成的物联网(GIoT)系统,通过应用提示工程方法增强开源 LLMs 的能力,并设计了提示管理模块和后处理模块,以管理不同任务的个性化提示并处理 LLMs 生成的结果。通过对两个流行的 Table-QA 数据集进行全面实验,结果表明我们的提议可以达到与最先进的 LLMs 相当的性能,证明了所提出的基于 LLMs 的 GIoT 系统可以通过个性化提示方法提供具有竞争力的性能,并且可以轻松扩展到新的任务而无需培训。
Jun, 2024
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
为解决在线语言模型应用中的隐私问题,本文介绍了一种名为 ProSan 的端到端提示隐私保护框架,它可以产生去除上下文隐私的匿名提示,同时保持任务可用性和人类可读性。ProSan 还能够灵活调整其保护目标和强度,适应不同的计算资源条件,确保即使在计算能力有限的移动设备上也能提供隐私保护。实验证明,ProSan 在各种任务中,包括问题回答、文本摘要和代码生成,有效去除私人信息,并仅对任务性能产生最小的影响。
Jun, 2024