DORY: LLM 的决策提示恢复

May, 2024

DORY: Deliberative Prompt Recovery for LLM

Lirong Gao, Ru Peng, Yiming Zhang, Junbo Zhao

TL;DR利用输出概率的不确定性构建新的方法 Deliberative PrOmpt RecoverY 来恢复模型的提示，通过改进和筛选提高了大型语言模型的性能，成为提示恢复任务中的标杆。

Abstract

prompt recovery in large language models (LLMs) is crucial for understanding how LLMs work and addressing concerns regarding privacy, copyright, etc. The trend towards inference-only APIs complicates this task by

large language models prompt recovery uncertainty deliberative prompt recovery state-of-the-art record

发现论文，激发创造

(动态) 提示可能足以修复压缩的 LLM 模型

大型语言模型，困惑度，压缩，基于提示的恢复，推理时动态提示。

Oct, 2023

揭示隐藏的意图：探索用于深入了解生成文本的提示恢复

本研究尝试超越检测 AI 生成内容的范畴，致力于恢复生成文本所用的提示，通过零样本学习、少样本上下文学习以及 LoRA 微调取得了令人满意的结果，并验证了使用半合成数据集的优势。

Jun, 2024

通过有向表示优化的提示驱动的 LLM 保护

通过研究使用安全提示的大型语言模型的工作机制，本文发现安全提示可以在模型表示空间中明显区分有害和无害查询，从而提出了一种名为 Directed Representation Optimization (DRO) 的方法，通过优化安全提示，显著改善了模型的安全性能。

Jan, 2024

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

通过提示回归进行提示探索

基于大规模语言模型的广泛使用，提出了一种用于预测提示组合效果的框架 PEPR，并提供了简单方法用于选择有效的提示。在不同任务上，利用不同规模的开源语言模型对该方法进行了评估。

May, 2024

DrAttack: 强大的 LLM 越狱程序的提示分解与重构

该研究论文提出了一种自动提示分解和重构框架（DrAttack），通过将恶意提示分解为子提示，并通过上下文学习和同义词搜索来实现重新组装，从而有效地模糊其恶意意图，以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明，DrAttack 能够显著降低查询次数，并在仅使用 15 个查询时，在 GPT-4 上获得了 78.0％的成功率，超过了以前的最佳攻击方法的 33.1％。

Feb, 2024

Deliberate then Generate: 文本生成的增强提示框架

研究通过提出一种新的 “DTG” 提示框架来改善大型语言模型在自然语言生成任务中的表现，该提示框架在 20 多个数据集和 7 个文本生成任务中进行了广泛实验，表明 DTG 方法在多项文本生成任务中表现卓越，优于现有的提示方法，并提供了有关其机理的深入分析。

May, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023

蓄意风险控制：用于大型语言模型负责任部署的严密框架

大型语言模型的能力提升引发了对如何最好地提示模型执行给定任务的兴趣，为了减轻最坏结果风险并促进负责任的部署，我们提出了 Prompt Risk Control 框架，通过对一系列信息风险度量的严格上界选择提示，成功改善了生成质量中的分歧。

Nov, 2023

通过定向促发指导大型语言模型

通过引入 “方向刺激提示” 框架，使用可调的语言模型（LM）为黑盒冷冻的大语言模型（LLM）在下游任务中提供指导，以重点提示 / 示范以及方向性刺激等手段协助 LLM 完成任务，通过验证取得了鼓舞人心的提升。

Feb, 2023