保留预训练特征有助于校准微调语言模型

ICLRMay, 2023

保留预训练特征有助于校准微调语言模型

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models

Guande He, Jianfei Chen, Jun Zhu

TL;DR本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题，并提出了一种有效的方法，即在辅助语言建模目标的基础上鼓励细调模型学习生成表示，从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。

Abstract

Large pre-trained language models (PLMs) have demonstrated strong performance on natural language understanding (NLU) tasks through fine-tuning. However, fine-tuned models still suffer from overconfident predicti

pre-trained language models calibration generative representations auxiliary language modeling natural language understanding

发现论文，激发创造

预训练语言模型的校准研究

本文通过精细控制实验和给定数据集，考察了 PLM 模型在训练过程中的校准性能，发现仍然存在校准问题；然后对比了多种方法，提出基于已有方法的扩展性学习方法，证明其显著提高模型的不确定性估计水平。

Oct, 2022

使预训练语言模型既成为任务求解器又成为自我校准器

为解决现实场景下对训练样本的有效利用，提出了一种训练算法 LM-TOAST，可以在保持原任务性能的同时，有效利用训练数据使预训练语言模型具有合理的置信度估计。

Jul, 2023

预训练 Transformer 内部分布校准的技巧

本文探讨了针对预训练语言模型（PLMs）的置信度校准，提出了一种 Calibrated PLM（CALL）的组合方法，包括置信度惩罚损失、数据增强和集成方法，CALL 能够弥补对单独使用校准方法可能产生的缺陷，提高了分类和校准精度。

Feb, 2023

预训练语言模型的事实知识校准

本文提出了一种简单轻量级的方法 CaliNet，用于校准预训练语言模型（PLMs）中所保存的事实性知识，试图解决当前存储知识的准确性问题，这一方法通过知识探测任务的实验表明其效率及有效性，并且经过微调后，其校准后的 PLM 具有良好的知识泛化能力，并且我们还进一步研究了知识校准机制。

Oct, 2022

使用预训练语言模型的不确定性量化：一项大规模经验分析

该论文研究了基于预训练语言模型的 NLP 任务中的预测流水线如何最小化校准误差，比较了不同选项的表现，并推荐使用 ELECTRA 作为 PLM 编码，尽可能使用更大的 PLM，使用温度调节作为不确定性度量，以及使用 Focal Loss 进行微调。

Oct, 2022

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

FreeLM：无微调语言模型

本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy，通过使用语言和强任务感知的 teacher signal 进行交互式训练，提高了该模型在多项任务中的泛化性和鲁棒性，并且相对于大型模型如 GPT-3 和 InstructGPT 而言，该模型较小，只有 0.3B 的参数。

May, 2023

提高预训练语言模型的泛化能力

预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制，该问题表现为在评估与训练数据集不同的示例时，性能显著下降，被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法，通过将掩码语言建模 (MLM) 训练目标整合到微调过程中，提高了 PLMs 的泛化能力。全面的实验证明，Mask-tuning 超越了当前最先进的技术，并增强了 PLMs 在离群数据集上的泛化能力，同时提高了它们在分布数据集上的性能。研究结果表明，Mask-tuning 改善了 PLMs 在未知数据上的可重用性，使其在实际应用中更加实用和有效。

Jul, 2023

使用 PLMs 重新审视少样本意图分类：直接微调 vs. 连续预训练

本文针对少样本意图检测任务进行研究，提出一种新的方法，即直接在少量标记数据上对预训练语言模型（PLMs）进行微调，使用上下文增强方法和序列自蒸馏技术进一步优化性能。实验表明，该方法优于许多强基线方法，甚至是在只有每类两个或更多标记样本的情况下。

Jun, 2023

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020