本文探讨了针对预训练语言模型(PLMs)的置信度校准,提出了一种 Calibrated PLM(CALL)的组合方法,包括置信度惩罚损失、数据增强和集成方法,CALL 能够弥补对单独使用校准方法可能产生的缺陷,提高了分类和校准精度。
Feb, 2023
为解决现实场景下对训练样本的有效利用,提出了一种训练算法 LM-TOAST,可以在保持原任务性能的同时,有效利用训练数据使预训练语言模型具有合理的置信度估计。
Jul, 2023
通过理论和实证研究,我们首次确定了上下文学习中的标签偏移现象,并提出了一种生成校准方法,通过调整标签边际分布来校准上下文预测分布,实验证明该方法在文本分类任务中显著且一致地优于其他校准方法,同时对于不同的提示配置也表现稳定。
Oct, 2023
本文通过将聚类方法应用于提前训练的语言模型的嵌入空间中,展示了在主题和情感分类数据集上,该方法在无需另作准备的情况下显著提高了零 - shot 文本分类的性能;并发现该方法不需要 Fine-tuning 就可以将文本分类;最后,文章还比较了不同 PLM 嵌入空间,并发现即使 PLM 未明确预训练为生成有意义的句子嵌入,它仍然能按主题将文本很好地聚类。
Oct, 2022
本文提出了一种基于实例的提示学习方法,用于不同实例的学习。该方法在双向和单向的 PLMs 上得到了相当大的提升,并在 SuperGLUE few-shot learning 基准测试上实现了最好的结果。
Jan, 2022
Prompt Tuning 对我们通常用 Pretrained Language Models 进行的多标签文本分类任务有着更好的性能和计算效率。
Sep, 2023
该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差,比较了不同选项的表现,并推荐使用 ELECTRA 作为 PLM 编码,尽可能使用更大的 PLM,使用温度调节作为不确定性度量,以及使用 Focal Loss 进行微调。
本文通过精细控制实验和给定数据集,考察了 PLM 模型在训练过程中的校准性能,发现仍然存在校准问题;然后对比了多种方法,提出基于已有方法的扩展性学习方法,证明其显著提高模型的不确定性估计水平。
通过使用新的线性校准技术(LinC),在仅需少量数据样本(如仅五个标记数据样本)的情况下,对于以 in-context learning(ICL)为基础的 GPT 模型进行概率输出校准,从而达到可靠的预测和改善性能,并显著提升 GPT 模型在各种基准数据集上的测试性能,平均改善率高达 21%,某些情况下高达 50%,尤其在资源有限的情况下提升 PEFT 方法的性能,同时具有较低的期望校准误差,并对不同的标签比例、提示模板和演示排列都具有高度的鲁棒性。
Jan, 2024
本文提出了一种针对预训练语言模型的黑盒离散提示学习方法,实现了在云端和边缘设备之间的高效协作,并在此基础上对各种数据大小、提示长度、训练预算、优化目标、提示可转移性和解释方面进行了深入的案例研究,证明了该算法在 8 个基准测试中取得了显著的改进。