语义引导的通用目标劫持 LLM 的提示组织

May, 2024

语义引导的通用目标劫持 LLM 的提示组织

Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs

Yihao Huang, Chong Wang, Xiaojun Jia, Qing Guo, Felix Juefei-Xu...

TL;DR通过语义导向的提示处理策略，我们提出了一种称为 POUGH 的通用目标劫持方法，用于评估大型语言模型的可信度，并在四个流行的语言模型和十种目标响应类型上进行了实验证实其有效性。

Abstract

With the rising popularity of large language models (LLMs), assessing their trustworthiness through security tasks has gained critical importance. Regarding the new task of →

large language models trustworthiness universal goal hijacking pough semantic-guided prompt processing strategies

发现论文，激发创造

面向目标导向的大型语言模型提示：综述

大型语言模型在各种下游任务中表现出显著性能，而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究，突出设计提示的局限性，同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维，我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外，我们引入了一个新的分类法，将目标导向的提示方法分为五个相互关联的阶段，并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向，希望进一步强调和推动目标导向的提示工程。

Jan, 2024

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

释放大语言模型作为启发优化器的潜力：一种与基于梯度的模型优化器的类比分析

自动提示优化是改进大型语言模型性能的重要方法。本文提出了一种新颖的视角，通过与基于梯度的模型优化器进行类比，设计了改进的 LLM-based 提示优化器的策略。实验结果表明 GPO 具有有效性和高效性，并分别相对基准方法在 Big-Bench Hard 和 MMLU 上带来了多达 56.8% 和 55.3% 的额外改进。

Feb, 2024

本地化零阶指示优化

通过对提示优化进行全面的实证研究，我们得出两个主要结论：相对全局最优解的罕见性，局部最优解普遍存在且表现良好（洞见一）。输入域的选择对于识别表现良好的局部最优解起着重要作用（洞见二）。受到这些洞见的启发，我们提出了一种新的算法 —— 局部零阶提示优化（ZOPO），将基于神经切向核的推导高斯过程纳入标准零阶优化中，以高效搜索在提示优化中表现良好的局部最优解。通过广泛的实验证明，ZOPO 在优化性能和查询效率方面优于现有基线模型。

Mar, 2024

层次指导分类法：大型语言模型的通用评估框架

通过引入层次化提示分类法及其规则以及自适应层次化提示框架，研究衡量大型语言模型在解决多样任务中的效果，进而发展一种用于评估数据集复杂性和语言模型能力的通用评价指标。

Jun, 2024

无梯度和演示的大型语言模型交互式任务的提示优化

研究提出了 LLM-PO，一种新方法，可以使 LLMs 在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求 LLMs 根据其采集的经验反思当前计划的优缺点，并根据 LLMs 的反馈来更新计划和收集更多的经验，从而解决交互式任务。在 HotpotQA 上的实验表明，LLM-PO 的成功率比基于上下文的学习（ICL）基线更高或相当，同时需要更少的推理成本。

May, 2023

通用自适应提示

通过研究，我们提出了一种自适应提示设计方法，能够使用只有少量未标记的数据和仅推理的 LLM 实现广泛的零 - shot 学习，该方法通过将 NLP 任务分类为三种类型，并使用相应的选择器选择最合适的查询和零 - shot 模型生成的响应作为伪证明，以完全自动化的方式将 ICL 推广到零 - shot 设置，从而呈现与少量 - shot 基线可比甚至优于的表现。

May, 2023

基于结构化语言知识的视觉 - 语言模型的层次化提示学习

本研究提出一种称为分层提示调整的新方法，利用大语言模型（LLMs）建立描述每个类别的图形模型，以模拟描述类别的实体和属性及其相关性，并通过引入关系引导注意模块来捕捉实体和属性之间的关联，以及通过结合整体语义建模来处理更复杂和长期的关系。实验结果表明，我们的方法具有很强的效果，并且比现有的最先进方法具有更好的泛化性能。

Dec, 2023

双相加速提示优化

通过采用良好设计的元指令，我们提出了一个双重阶段的方法来加速提示优化过程，以应对低收敛速度的挑战，并在句级别上迭代优化提示，利用之前的调优经验扩展提示候选并接受有效的候选。对八个数据集进行的大量实验证明了我们提出的方法的有效性，在少于五次优化步骤的情况下与基准模型相比实现了一致的准确率提升。

Jun, 2024