大型语言模型,困惑度,压缩,基于提示的恢复,推理时动态提示。
Oct, 2023
本研究尝试超越检测 AI 生成内容的范畴,致力于恢复生成文本所用的提示,通过零样本学习、少样本上下文学习以及 LoRA 微调取得了令人满意的结果,并验证了使用半合成数据集的优势。
Jun, 2024
通过研究使用安全提示的大型语言模型的工作机制,本文发现安全提示可以在模型表示空间中明显区分有害和无害查询,从而提出了一种名为 Directed Representation Optimization (DRO) 的方法,通过优化安全提示,显著改善了模型的安全性能。
Jan, 2024
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
基于大规模语言模型的广泛使用,提出了一种用于预测提示组合效果的框架 PEPR,并提供了简单方法用于选择有效的提示。在不同任务上,利用不同规模的开源语言模型对该方法进行了评估。
May, 2024
该研究论文提出了一种自动提示分解和重构框架(DrAttack),通过将恶意提示分解为子提示,并通过上下文学习和同义词搜索来实现重新组装,从而有效地模糊其恶意意图,以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明,DrAttack 能够显著降低查询次数,并在仅使用 15 个查询时,在 GPT-4 上获得了 78.0%的成功率,超过了以前的最佳攻击方法的 33.1%。
Feb, 2024
研究通过提出一种新的 “DTG” 提示框架来改善大型语言模型在自然语言生成任务中的表现,该提示框架在 20 多个数据集和 7 个文本生成任务中进行了广泛实验,表明 DTG 方法在多项文本生成任务中表现卓越,优于现有的提示方法,并提供了有关其机理的深入分析。
May, 2023
利用领导者 - 追随者双层框架,本文实现了一个完全集成的端到端框架,用于处理复杂的推理任务,并通过引入历史发现为生成合适的问题(提示)提供指导,进而指导行动学习。
大型语言模型的能力提升引发了对如何最好地提示模型执行给定任务的兴趣,为了减轻最坏结果风险并促进负责任的部署,我们提出了 Prompt Risk Control 框架,通过对一系列信息风险度量的严格上界选择提示,成功改善了生成质量中的分歧。
Nov, 2023
通过引入 “方向刺激提示” 框架,使用可调的语言模型(LM)为黑盒冷冻的大语言模型(LLM)在下游任务中提供指导,以重点提示 / 示范以及方向性刺激等手段协助 LLM 完成任务,通过验证取得了鼓舞人心的提升。
Feb, 2023