通过因果推断保留预训练语言模型中的常识知识

ACLJun, 2023

通过因果推断保留预训练语言模型中的常识知识

Preserving Commonsense Knowledge from Pre-trained Language Models via Causal Inference

Junhao Zheng, Qianli Ma, Shengjie Qiu, Yue Wu, Peitian Ma...

TL;DR通过在因果图上探索，本文发现灾难性遗忘的关键在于缺失来自预训练数据的因果影响，提出了一种统一的微调目标以恢复因果关系，将该方法实现在常识 QA 上的结果表明其有效性。

Abstract

fine-tuning has been proven to be a simple and effective technique to transfer the learned knowledge of pre-trained language models (PLMs) to downstream tasks. However, vanilla →

fine-tuning pre-trained language models causal graph catastrophic forgetting commonsense qa

发现论文，激发创造

为预训练语言模型提供常识知识转移

本研究提出一种通用预训练语言模型的常识知识转移框架，通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进，使其更好地传递到需要常识推理的下游任务中并取得显著改善。

Jun, 2023

使用预训练模型探索具有泛化性通识推理策略

本篇论文研究如何通过三种不同的适应方法来影响模型的泛化和准确性，其中 fine-tuning 虽然能够更好地学习任务的内容和结构，但容易出现过拟合和泛化能力有限的问题，相比较而言，使用类似 prefix-tuning 的替代适应方法能够更好地适应未见过的答案，并且更加鲁棒。

Sep, 2021

通过隐式推理理解语言模型中的灾难性遗忘

微调语言模型会在特定任务上产生性能提升，但对其他任务可能造成能力抑制。为了恢复预训练能力，通过对任务进行翻译使其远离语言模型微调分布，发现可以恢复上下文学习能力，并使聊天机器人生成有害内容。

Sep, 2023

Few-shot 知识模型中常识性的分析

本研究验证了常识知识模型可以通过训练少量样例快速适应共现的常识知识表示能力，并发现有关该接口是如何学习的新见解。

Jan, 2021

基于知识增强的通识常识故事生成预训练模型

本文针对故事生成中存在的重复、逻辑冲突和长距离一致性缺乏等问题，提出了一种基于知识增强预训练模型的通用故事生成方法。通过利用外部知识库中的常识知识来生成合理的故事，并采用多任务学习的方法来捕捉合理故事中句子之间的因果关系和时间依赖关系，从而在逻辑和整体一致性方面比其他最先进的模型有更好的表现。

Jan, 2020

理解基于事实知识提取的微调

本文研究了 QA 微调数据对下游事实性的影响，证明了微调在不太为人知的事实上时，即使在预训练期间看到了所有事实，其事实性远远不如在众所周知的事实上进行微调，我们的结果揭示了预训练知识和微调数据之间的相互作用，并在为知识密集型任务进行微调时强调了预训练模型中事实存储的重要性。

Jun, 2024

为基于概念的常识构建预训练文本到文本变换模型

本文提出概念感知的语言模型 (CALM)，通过增强自监督学习任务以从文本中学习常识。CALM 可以在不依赖外部知识图谱的情况下将更多的常识知识整合到预先训练的文本转文本变压器的参数中，从而在自然语言理解和生成任务中实现更好的性能。

Oct, 2020

知识增强语言模型用于因果关系分类

本文研究如何将常识知识加入预训练的语言模型中，并发现这种方式可以提高模型在因果关系分类和常识因果推理任务中的表现。

Dec, 2021

概念级微调对防止负面迁移的重要性

通过概念微调（Concept-Tuning）方法，可以改善预训练模型的特征表示，减少罕见特征和虚假关联特征的负面影响，进而提高细调方法在各种数据集上的表现。

Nov, 2023

回忆和学习：用更少的忘却对深度预训练语言模型进行微调

本论文提出了一种召回和学习机制，它采用了多任务学习的思想，联合学习预训练任务和下游任务，通过先简单地回忆预训练任务的知识，然后逐渐关注下游任务的学习，以实现减少忘记的微调。实验表明，该方法在 GLUE 基准上实现了最新的性能，并为 NLP 社区提供了开源的 RecAdam 优化器。

Apr, 2020