知识注入的自注意力变换器

KDDJun, 2023

Knowledge-Infused Self Attention Transformers

Kaushik Roy, Yuxin Zi, Vignesh Narayanan, Manas Gaur, Amit Sheth

TL;DR本论文旨在提出一种有系统的方法将外部知识图谱融入 Transformer 模型中，以解决在语言模型中存在的幻觉和对人类用户生成无用和不安全输出的问题，并在 GLUE 基准测试任务上进行大量实验证明其有效性。

Abstract

transformer-based language models have achieved impressive success in various natural language processing tasks due to their ability to capture complex dependencies and contextual information using self-attention mechan

transformer-based language models hallucinations self-attention mechanisms external knowledge from knowledge graphs glue benchmark tasks

发现论文，激发创造

KI-BERT: 基于知识背景的语言和领域理解的增强

通过对知识图谱进行多方位的知识语境注入，基于 BERT 的语言模型可以在微调期间解决概念和模糊实体的语境问题，从而在 GLUE 测试集的多个子任务中，KI-BERT-base 模型能够显著优于以 ERNIE、SenseBERT 和 BERT_CS 为代表的最新知识感知 BERT 变体，甚至比 BERT-large 模型在 SciTail 和 QQP、QNLI、MNLI 等领域特定任务方面表现更佳。

Apr, 2021

知识图谱融合用于语言模型微调

探索将知识图谱注入 Bert 模型的微调阶段来提高语言理解，并通过实验证明注入相关高质量知识对于特定任务有显著的性能提升。

Jun, 2022

知识感知语言模型预训练

本文通过在预训练中引入实体信号，将知识意识融入到语言模型的预训练中，无需改变 transformer 体系结构、插入显式知识层或添加语义信息外部存储。实验证明，仅通过添加这些实体信号进行预训练，可以在 transformer 参数中装载更多的知识，从而提高语言建模精度，并在 LAMA 知识探测任务中获得事实的正确性，利用边界分析显示出隐藏表示中的语义，同时表明我们的知识感知语言模型（KALM）可以作为一个可抛弃替换 GPT-2 模型，显著提高了零 - shot 问题回答等下游任务的表现。

Jun, 2020

InfuserKI: 通过 Infuser 引导知识集成增强大型语言模型

通过使用 Infuser-Guided Knowledge Integration (InfuserKI) 框架，我们能够高效地将未知的知识集成到 Large Language Models (LLMs) 中，从而有效地减少知识遗忘，并超过现有方法在减少知识遗忘上的表现。

Feb, 2024

结合预训练语言模型和结构化知识

本文调查了将结构化知识集成到现有的语言模型中的各种方法，并确定了挑战和可能的机会，发现利用基于适配器的注入仍有机会，并且可能将多种探索过的方法进一步结合成一个系统。

Jan, 2021

知识图谱引导的语言模型语义评估用于用户信任

本研究通过建立图格式的知识图谱，对自注意力转换器编码的语义进行了评估，发现语言模型不会赋予学习到的随机模式以物体和概念级别的含义和语义，同时构建了一个 GLUE 基准的增强语言理解基准，以使语言模型的概念理解得到健壮的评估。

May, 2023

预训练 Transformer 中的知识传递

研究人员通过深入研究语言模型的计算图，发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响，并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。

May, 2024

利用背景提示将知识注入大型语言模型

提出了一种通过从输入文本中生成提示来实现知识注入的简单而通用的方法，从而增强大型语言模型在特定领域的自然语言处理任务中的性能，并通过对微调后的大型语言模型进行探测评估来证明该方法的有效性。

Mar, 2024

知识增强注意力用于稳健的自然语言推理

本文提出一种利用简单变换将外部知识纳入注意机制来使 NLI 模型更加稳健的方法，将其应用于 Transformer 编码器和可分解模型中，结果表明该方法可以显著提高它们的稳健性。并且，在与 BERT 预训练相结合时，在对抗 SNLI 数据集上实现了人类水平的性能。

Aug, 2019

走向知识驱动的自然语言理解与生成

通过将转换器模型与知识表示相关联，本论文研究了自然语言理解和生成的效果，并回答了以下关键研究问题：(i) 实体知识是否能够超越实体链接等实体为中心的任务，并带来更多的好处？(ii) 如何从原始文本中准确有效地提取这种结构化知识，尤其是嘈杂的网络文本？(iii) 除了结构化知识，其他类型的知识如何对改进自然语言处理任务有所贡献？研究表明，引入相关和最新的实体知识有助于虚假新闻检测，而面向实体的语言转换显著提高了零样本跨语言迁移的效果。在提取结构化知识方面，将负面样本整合和与实体规划一起训练显著提高了性能。此外，研究还发现，其他一般形式的知识，如参数化知识和精炼知识，有助于多模态和多语言知识密集型任务。这项研究展示了多元知识整合的实际好处，并鼓励在这个方向上进一步探索。

Mar, 2024