预训练转换器的神经知识库
本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识,通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明,可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。
Apr, 2021
我们提出了一种简单的模型 Kformer,它通过在 Transformer 的 FFN 层中注入来自 PTMs 和外部知识的信息,利用了 PTMs 存储的知识和内部的数量知识神经元。实验结果表明,在常识推理和医学问答等知识密集型任务中,Kformer 的表现优于其他知识注入技术,如连接或基于注意力的注入。
Jan, 2022
本文通过在预训练中引入实体信号,将知识意识融入到语言模型的预训练中,无需改变 transformer 体系结构、插入显式知识层或添加语义信息外部存储。实验证明,仅通过添加这些实体信号进行预训练,可以在 transformer 参数中装载更多的知识,从而提高语言建模精度,并在 LAMA 知识探测任务中获得事实的正确性,利用边界分析显示出隐藏表示中的语义,同时表明我们的知识感知语言模型(KALM)可以作为一个可抛弃替换 GPT-2 模型,显著提高了零 - shot 问题回答等下游任务的表现。
Jun, 2020
该研究提出了一种神经知识语言模型 (NKLM),将知识图提供的符号化知识与 RNN 语言模型相结合,通过预测所生成的单词是否具有潜在事实,从预测事实的描述中复制生成这些与知识相关的单词。实验结果表明,NKLM 显著提高了性能的同时,生成了更少的未知词。
Aug, 2016
预训练语言模型在推理时过长的输入会迅速成为记忆信息的瓶颈。本文提出了一种简单的方法,使用记忆转换器给模型提供预先计算的记忆库,通过批判性评估定位编码应如何更新以检索关键信息,而非使用外部嵌入。我们展示了在大多数解码器层中检索外部信息的重要性,并公开了一个新的反事实长距离检索基准。实验证明,扩展心智转换器在平均性能上超过了当今的最先进水平。
Jun, 2024
本文介绍了一种使用内部储存器实现直接读取并记忆新数据的语言模型,在多个基准测试和任务中展示了近似 kNN 查找技术,着重测试了代码和数学等领域,并证明了随着储存器大小的增加,性能将稳步提高。
Mar, 2022
重新评估了 Knowledge Neuron (KN) Thesis,发现其对于大型语言模型从训练语料库中提取事实的机制的解释过于简化,并且无法充分解释事实表达的过程,需要进一步研究模型的复杂层结构和注意机制来获得更全面的知识表示过程的理解。
May, 2024
本研究提出了在神经 SPARQL 查询生成中整合一个复制机制,以解决目前方案无法处理模型未见过的知识资源、类和属性的问题,并使用两种 Seq2Seq 体系结构(CNN 和 Transformers)进行说明。该层使模型直接从问题中复制 KB 元素,而不是生成它们,并在包括引用未知 KB 元素的数据集上评估我们的方法,显示所有数据集上性能都有了显著的提高。
Nov, 2022
本论文旨在提出一种有系统的方法将外部知识图谱融入 Transformer 模型中,以解决在语言模型中存在的幻觉和对人类用户生成无用和不安全输出的问题,并在 GLUE 基准测试任务上进行大量实验证明其有效性。
Jun, 2023