考虑平坦度的提示选择可提高准确性和样本效率
大语言模型的关键因素在于提示设计对其性能会产生巨大影响,通过许多方面的分析研究,我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性,这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
Oct, 2023
本研究提出了 MetricPrompt 方法来解决 few-shot 分类任务的 verbalizer 设计难题,将其转化为文本对相关性评估任务,使用 prompting 模型作为相关性度量,取得了超过手动 verbalizer 和其他自动 verbalizer 设计方法的最新 SOTA 表现。
Jun, 2023
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
本文中,我们提出了一种统一的框架来解释和评估现有的概率基准选取方法,对 13 个常见的 NLP 任务进行了广泛的实验,并发现所有现有方法都可以统一为一些变量的方法,这些方法最大化了输入和相应模型输出之间的互信息,并提出了几种互信息的变体,并通过较新的校准方法,即 Margin- Calibration by Marginalization(CBM)提高了最佳选择方法的准确性,从而将选中问题的性能与最佳 Oracle 问题的性能比率提高到 99.44%。
May, 2023
使用大型语言模型(LLMs)对教育应用,如基于对话的教学,进行研究是一个热门话题。本研究引入并评估了基于提示的文本难度度量,该度量方法相比静态度量具有更好的性能,并展示了利用 LLMs 评估文本对不同教育水平的适应的潜力。
May, 2024
利用自动化方法生成的 AutoPrompt,我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力,以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。
Oct, 2020
基于模拟优化,提出了一个两阶段框架以实现生成语言模型的提示选择,该框架能够在评估和选择阶段中构建代表提示的中等维度向量的得分模型,并证明了该框架中的顺序评估过程的一致性。数值实验证明了此框架的有效性,为实施提供了实际指导。
Apr, 2024
该研究提出了一种多级提示调优方法来增强机器阅读理解,通过利用任务特定、领域特定和上下文相关的提示,提高了输入语义在不同层次上的理解能力。同时,引入了独立性约束来避免冗余,并利用上下文相关知识生成合适的提示。在各种问答格式的 12 个基准测试中进行了广泛实验,相比最先进的方法,平均改进率达到了 1.94%。
Oct, 2023