为预训练语言模型提供常识知识转移

ACLJun, 2023

为预训练语言模型提供常识知识转移

Commonsense Knowledge Transfer for Pre-trained Language Models

Wangchunshu Zhou, Ronan Le Bras, Yejin Choi

TL;DR本研究提出一种通用预训练语言模型的常识知识转移框架，通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进，使其更好地传递到需要常识推理的下游任务中并取得显著改善。

Abstract

Despite serving as the foundation models for a wide range of nlp benchmarks, pre-trained language models have shown limited capabilities of acquiring implicit commonsense knowledge from self-supervision alone, co

nlp benchmarks pre-trained language models commonsense knowledge transfer neural commonsense knowledge model downstream tasks

发现论文，激发创造

预训练模型中的常识知识挖掘

使用预训练的双向语言模型将关系三元组转换为掩码句子，通过估计点间互信息来排名三元组的有效性，从而开发了一种生成常识知识的方法。该方法在新源中挖掘常识知识时优于显式训练的模型，说明无监督技术比目前的有监督方法更具推广性。

Sep, 2019

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用 ConceptNet 中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

预训练语言模型在常识知识推理和生成中的应用：综述

本文调查了预先训练模型在常识推理和生成任务上的表现，探讨了最新研究的优劣势，并提出未来的研究方向。

Jan, 2022

Few-shot 知识模型中常识性的分析

本研究验证了常识知识模型可以通过训练少量样例快速适应共现的常识知识表示能力，并发现有关该接口是如何学习的新见解。

Jan, 2021

推动 Transformer 在常识推理中的能力

介绍了如何利用当前的机器学习方法，通过知识迁移、模型集成和引入配对对比目标等方法，改进通用预训练语言模型在常识推理任务中，取得超过 15％的配对准确度和超过 8.7％的标准准确度的绝对增益。

Oct, 2023

在预训练模型中加入常识知识图谱以进行社交常识任务

该研究提出了两种方法，通过外部常识知识图谱，隐式或显式地融入到预先训练好的自然语言处理模型中，以提高社交智能，这种方法对社交常识推理任务 SocialIQA 的表现在有限和完整的训练数据制度下都表现出良好的效果。

May, 2021

为基于概念的常识构建预训练文本到文本变换模型

本文提出概念感知的语言模型 (CALM)，通过增强自监督学习任务以从文本中学习常识。CALM 可以在不依赖外部知识图谱的情况下将更多的常识知识整合到预先训练的文本转文本变压器的参数中，从而在自然语言理解和生成任务中实现更好的性能。

Oct, 2020

基于知识增强的通识常识故事生成预训练模型

本文针对故事生成中存在的重复、逻辑冲突和长距离一致性缺乏等问题，提出了一种基于知识增强预训练模型的通用故事生成方法。通过利用外部知识库中的常识知识来生成合理的故事，并采用多任务学习的方法来捕捉合理故事中句子之间的因果关系和时间依赖关系，从而在逻辑和整体一致性方面比其他最先进的模型有更好的表现。

Jan, 2020

符号知识蒸馏：从通用语言模型到常识模型

研究一个新的框架，基于 Symbolic Knowledge Distillation，使用通用语言模型自动化地从 ATOMIC 资源中筛选高质量因果常识，并创造一种新的常识模型，其大小只有原始模型的 1/100，但功能优于其老师模型。

Oct, 2021

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021