离散提示嵌入的连续提示生成
为了研究对离散任务 fine-tuning 的紧凑替代方法,探讨了连续提示的离散(文本)解释的可行性,并提供了各种参数的实证分析结果,发现模型越大,出现更大的不规范现象,即可以发现更贴近任意文本的提示,而精确度下降更小。这些结果对于准确解读连续提示和其在模型和任务间的推广具有重要意义,并为未来的语言提示模型提供了指导。
Dec, 2021
本文研究了离散提示在下游自然语言推理任务中的鲁棒性,通过应用 AutoPrompt 并在两个自然语言推理数据集中测量其表现,发现尽管基于离散提示的方法对自然语言推理输入的扰动相对较为鲁棒,但对提示令牌的移动和删除等其他类型的扰动非常敏感,而且其在不同的自然语言推理数据集上的泛化能力较差。
Feb, 2023
本文提出了一种新的连续提示方法,称为上下文调整,用于对预训练语言模型进行微调以进行自然语言生成,可以根据输入文本生成上下文化的提示,然后使用连续的反向提示来改进过程自然语言生成的过程。
Jan, 2022
该论文研究了利用自动诱导的提示从语言模型中提取信息的能力是否可以被直接应用于探索其他语言模型。在证实了自动提示优于手动和半手动提示的插槽填充任务后,我们证明了在一个模型上学习并在另一个模型上进行测试的 AutoPrompt 提示效果下降。我们介绍了一种混合语言模型来诱导提示的方法,以获得可以在多个模型之间广义的提示。我们对诱导提示进行了全面分析,发现更通用的提示包括更大比例的现有英语单词,其组成部分信息的分布更少依赖顺序并且更加均匀。我们的研究提供了初步证据表明可能生成可诱导一次并与许多不同模型一起使用的离散提示,并提供关于表征此类提示的属性的见解。
Feb, 2023
语言模型提示优化研究表明,通过无明显意义或语法结构的自动生成的令牌序列,包括模型嵌入空间中的向量序列,通常胜过语义和语法良好的手工制作的提示。我们使用机器生成的提示来探究模型对非自然语言表达组成的输入的响应,并在多个语义任务中研究不同尺寸模型的行为,以及它们对连续和离散机器生成的提示和人工生成的自然语言提示的响应行为进行比较。即使产生相似的输出,机器生成的和人工提示通过网络处理途径触发不同的响应模式,包括不同的困惑度、不同的注意力和输出熵分布,以及不同的单元激活特征。我们提供了对不同提示类型激活的单元性质的初步洞察,表明只有自然语言提示才会引起真正的语言电路的激活。
Oct, 2023
该论文提出了一种基于强化学习的离散提示优化方法(RLPrompt),旨在有效地生成适合不同类型的预训练语言模型使用的离散提示,并在极少量的下游数据情况下表现出优异的表现。
May, 2022
提出了 ConvPrompt,一种新颖的卷积提示创建机制,通过维护逐层共享的嵌入,实现了层特定学习和更好的概念传递,从而克服了 Catastrophic Forgetting 在 Continual Learning 中的问题。通过使用卷积的智能化利用,可以保持较低的参数开销而不影响性能,并通过大型语言模型生成每个类别的细粒度文本描述,用于获取任务相似性并动态决定要学习的提示数量。在广泛的实验证明了 ConvPrompt 的优越性,并显著提高了 SOTA 约 3%,参数开销更少。同时进行了强有力的模块剥离以剖析不同组成部分的重要性。
Mar, 2024
本文提出了一种基于实例的提示学习方法,用于不同实例的学习。该方法在双向和单向的 PLMs 上得到了相当大的提升,并在 SuperGLUE few-shot learning 基准测试上实现了最好的结果。
Jan, 2022
我们提出并分析了一种直接改变提示嵌入而非提示文本的方法,将生成的文本到图像模型视为一个连续函数,并在图像空间和提示嵌入空间之间传递梯度,通过解决不同的用户交互问题,应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特定种子中看到但难以在提示中描述的信息等三种场景。实验证明了所描述方法的可行性。
Aug, 2023
本文介绍了一种针对文本生成模型的优化方法,通过梯度下降优化生成 “hard” 文本提示,该方法可在文本生成到图像和文本生成到文本的应用中使用,提高了模型的分类准确率和混合搭配图像概念的功能。
Feb, 2023