词重要性解释了提示如何影响语言模型的输出

Mar, 2024

词重要性解释了提示如何影响语言模型的输出

Word Importance Explains How Prompts Affect Language Model Outputs

Stefan Hackmann, Haniyeh Mahmoudian, Mark Steadman, Michael Schmidt

TL;DR通过改变提示中的单词以揭示其对模型输出的统计影响来改善大型语言模型的可解释性，检验结果显示单词重要性得分与多个评分函数的预期后缀重要性密切相关。

Abstract

The emergence of large language models (LLMs) has revolutionized numerous applications across industries. However, their "black box" nature often hinders the understanding of how they make specific decisions, raising concerns about their →

large language models explainability word importance transparency statistical impact

发现论文，激发创造

探索神经机器翻译与词重要性的关系

通过基于梯度下降的方法，测量每个输入词对神经机器翻译输出的影响，从而提高神经机器翻译的可解释性。同时，揭示了语法类别对于神经机器翻译输入词的影响，为多语言翻译的设计原则提供了启示。

Sep, 2019

使用针对语义任务训练的模型评估词汇重要性

本研究提出一种基于自然语言推理和释义识别的模型训练方法，通过解释预测模型的预测结果，得到每个输入标记的重要性分数，并可以分析其语法特征，可用于识别训练中没有明确标记的句子中的重要单词。

May, 2023

改变提示的蝴蝶效应：小的变化与越狱对大型语言模型的影响

在这项研究中，我们探究了提示的构建方式对大型语言模型的决策是否产生影响。我们通过一系列针对不同文本分类任务的提示变化进行了实验。研究发现，即使是最小的扰动，如在提示的末尾添加一个空格，都可能导致大型语言模型改变其回答。此外，要求以 XML 格式回应和常用的破解行为可能对大型语言模型标注的数据产生灾难性影响。

Jan, 2024

通过词重要性评分提高带水印的大型语言模型的生成质量

使用重要性评分的水印语言模型提高生成的文本质量，并提出三种预测重要性评分的方法。

Nov, 2023

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

基于零样本 LLM 排名器的提示变体研究

我们通过大规模实验和分析发现，零 - shot 大语言模型的排名方法的差异不仅来源于排名算法和模型骨干，而且还很重要的来自于提示元素和用词的选择，实际上，我们在实验中发现，这些后者对排名器的有效性产生的影响有时比实际的排名算法更大，而且在考虑到提示的变化时，排名方法之间的差异变得更加模糊。

Jun, 2024

深度自然语言处理中脆弱解释的扰动输入

本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法，结果表明，即使对少量单词进行更改，这些方法也可能变得不稳定和不可信。

Aug, 2021

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

文本图像模型分析偏差的单词级解释

本文的研究目的是探讨文本转图像模型（T2I）如何在生成图像时通过特定的单词体现出种族和性别的偏见，作者通过遮蔽语言模型计算各单词的影响得分，实验结果表明该方法能够用于识别生成图像中的社会刻板印象。

Jun, 2023

基于位置的提示方式用于健康结果生成

本研究提出了一种基于位置 - 注意机制的方法，避免了构造多种不同的提示模板。使用生物医学预训练语言模型，实验结果显示我们的方法能更好地填补掩码，对罕见提示模板的回答（如后缀和混合模式）更为有效。

Mar, 2022