May, 2023

基于解释的微调使模型对虚假线索更加鲁棒

TL;DR本文提出了基于解释的微调作为一种缓解大型语言模型依赖错误相关的新颖通用方法,并在人工构建的训练集上微调模型,使其更加强壮。与标准微调不同,我们不仅仅针对输入进行预测,还微调模型以生成支持其答案的自由文本解释。与标准微调相比,我们的方法在四个分类任务中使模型对伪线索具有明显更强的稳健性。此外,我们的方法同样适用于由模型生成的解释,暗示了其在更多数据集上的适用性。