知识增强的上下文词表示
通过对知识图谱进行多方位的知识语境注入,基于 BERT 的语言模型可以在微调期间解决概念和模糊实体的语境问题,从而在 GLUE 测试集的多个子任务中,KI-BERT-base 模型能够显著优于以 ERNIE、SenseBERT 和 BERT_CS 为代表的最新知识感知 BERT 变体,甚至比 BERT-large 模型在 SciTail 和 QQP、QNLI、MNLI 等领域特定任务方面表现更佳。
Apr, 2021
我们提出了一种新的预训练模型,利用基于维基百科的知识图谱实现了在实体和关系上的双重表示,以及利用跨度模块进行有效编码,相较于现有模型使用更少的参数。实验结果表明,相比 RoBERTa 模型,我们模型在信息抽取任务上表现更好,尤其在监督学习任务中达到了很高的竞争水平。
Aug, 2022
本文提出了一种新颖而简单的技术,将来自不同结构的两个大型知识库中的概念知识(Wikipedia 和 Probase)整合起来,学习概念表示,并在两个任务上评估了概念嵌入模型:类比推理和概念分类,并展示了无监督环境中用于神经语义分析的参数识别的案例研究,相对于 gazetteer 和正则表达式等繁琐易出错的方法,我们的无监督方法具有更好的泛化能力。
Jan, 2018
提出了一种基于知识图谱的语言表示模型(K-BERT),可以将领域特定的知识注入到模型中,以用于解决需要专家知识的领域特定问题,实验证明其在 12 个 NLP 任务中有很好的表现。
Sep, 2019
提出了一种使用从多个文档中动态检索的文本百科知识使输入文本脱离上下文进行表征的方法,并将该方法应用于阅读理解任务,其过程中将与实体相关的背景句子编码为问题和段落,并表明将文本中的背景知识进行集成对实现基于事实推理的任务是有效的,而且可以通过基于自监督遮蔽模型目标的适当预训练来进一步提高知识集成能力,在 TriviaQA 上,该方法相对于不动态整合背景知识的 RoBERTa 模型取得了 1.6 到 3.1 F1 的性能提升,在一组多样化的 QA 数据集上,如 BioASQ、TextbookQA 和 DuoRC,该方法在任务内有相当的提升,而在任务外的性能提升显著。
Apr, 2020
本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型,结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果,并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。
May, 2022
通过填充空白的任务来学习来自文本上下文中提及的实体的上下文无关表示,结果展示了 Neural 模型的大规模训练可以学习到高质量的实体表示,并在四个领域展示了成功的结果。
Jan, 2020
该综述着重探讨如何通过训练深度上下文语言模型,在没有人为限制下更灵活地内部化和表达关系知识,对知识表示策略进行分类,提出了高层次的可扩展分类法,并强调了当前语言模型在知识表示方面的能力与未来的研究方向。
Apr, 2021
本文提出了 ERNIE,使用大规模的文本语料库和知识图谱(KGs)同时训练,利用 KGs 中的外部知识来增强语言表征,实验证明在不同知识驱动任务上 ERNIE 显著提高性能,同时在其他常见 NLP 任务上与 BERT 的性能相当。
May, 2019