- ASPER:用于联合实体关系抽取的答案集编程增强神经网络模型
本文介绍了 ASP-enhanced Entity-Relation extraction (ASPER) 方法,通过将 Answer Set Programming (ASP) 中的实际知识(表示为事实)和派生知识(表示为规则)与神经网络 - 自回归语言模型中事实关联的回忆解剖
本文通过信息流的视角研究了基于 Transformer 的语言模型如何在推理过程中检索参数中的实际知识,并通过对模型中注意力机制的介入实现了对预测中信息流的详细分析和理解。通过此研究,我们阐述了在语言模型中实现知识局部化和编辑的方法。
- CVPR视频事件关系预测中结构符号表示的辩护
本研究针对视频中事件关系预测的问题,提出了一种结构符号表示 (SSR) 与事件顺序模型 (Event Sequence Model) 相结合的方法,使用外部常识知识库为预训练数据集,从而提升了视频事件关系预测的精度。
- EMNLPSPE: 对称提示增强事实探测
本研究介绍一种基于预训练语言模型的对称连续提示增强方法(SPE),该方法可以提高预训练语言模型在常用事实性任务探测数据集(LAMA)上的探测精度。
- EMNLP使用确定性事实知识进行语言模型预训练
该论文提出了一种基于确定性关系的预训练方法,利用外部知识库识别确定性关系并连续预训练语言模型以提高其在提取事实知识方面的鲁棒性,试图学习与之相关的确定性关系有助于知识密集型任务。
- EMNLP预训练语言模型的事实知识校准
本文提出了一种简单轻量级的方法 CaliNet,用于校准预训练语言模型(PLMs)中所保存的事实性知识,试图解决当前存储知识的准确性问题, 这一方法通过知识探测任务的实验表明其效率及有效性,并且经过微调后, 其校准后的 PLM 具有良好的知 - 测量数据统计对语言模型 “事实性” 预测的因果影响
通过提供一种语言描述训练数据如何影响预测的因果框架,我们研究了提取预训练语言模型中事实知识的问题。研究表明,诸如共现计数等简单数据统计确实会影响预测结果,暗示此类模型依赖于表浅启发式。此结果强调了研究数据集和了解 NLP 模型的因果性的重要 - 基于 Transformer 的知识归属模式挖掘
本文研究了 Knowledge Neurons 框架的知识神经元以及它们在 Transformer 网络中对于事实和关系知识的归因。研究发现,大多数的事实知识可以归属于网络的中高层。而中间层次则更多负责关系信息,最后数层则进一步提炼成实际的 - ACL预训练语言模型如何捕捉事实知识?因果启发式分析
本文通过因果分析量化和评估 PLMs 依靠生成缺失字词的单词级模式来回答 PLMs 如何正确生成结果这一谜团并发现 PLMs 更倾向于依靠与缺失字词位置接近和高频共现的单词而非知识依赖型的单词,从而得出 PLMs 因为依靠不充分的关联而效率 - 多语种预训练语言模型的事实一致性
本文调查了多语言语言模型(如 mBERT 和 XLM-R)在一些语言下对事实知识预测的一致性,并发现尽管在英语下,这些模型的一致性与其单语言模型相似,但在其他 45 种语言下,这些模型的一致性程度却较低。
- ACL利用事实知识自动检测实体篡改文本
该研究提出了一种基于神经网络的检测器,利用图卷积神经网络和新闻文章中的文本信息来探究文章提到的事实,以区分人工编写的新闻文章和通过对实体进行事实不正确的替换而生成的文章。研究者使用了多种策略生成新实体替换,包括使用 GPT-2 生成。该模型 - 我的知识增强语言模型有哪些变化?
该论文提出了一种叫做 “Graph Convolution Simulator”(GCS)的探针模型,用于解释知识增强语言模型(Knowledge-enhanced LMs)中知识整合的方式,并发现只有少量的事实知识被整合进 ERNIE 和 - 提及记忆:通过实体提及注意力将文本知识融入 Transformers
该论文提出了一种利用 Transformer 模型中的半参数表示以及文本语料库的 “指向记忆” 来提取多个文本来源的事实信息的方法,称为 TOME,并在多个实验中证明其在自然语言理解任务中的优异表现。
- ACL基于时间感知的语言模型作为时态知识库
介绍了一个用于探讨语言模型在知识更新方面的诊断数据集,提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”,而无需从头开始重新训 - ACL预训练变压器网络中的知识神经元
本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识,通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明,可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。
- ACL静态嵌入作为高效知识库?
研究表明,与结构化知识库不同,掩码句子被用作探针(如 “巴黎是 [MASK] 的首都”),以调查大型预训练语言模型中存储的事实知识。 在跨十种不同语言的实验中,我们发现,相对于预训练语言模型,使用静态嵌入简单的最近邻匹配效果更好。其中一个重 - ACL预训练语言模型的一致性测量和提升
研究了预训练语言模型的一致性,发现它们在事实知识方面缺乏一致性,且表现良莠不齐;提出了一种改善模型一致性的方法,并在实验中证明其有效性。
- 修改 Transformer 模型中的记忆
本文提出了一个新任务,即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识,并在此任务上基准化了几种方法,发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练 - 语言模型是开放的知识图谱
本论文介绍了如何使用预训练语言模型构建知识图谱,从而达到无须人类监督的效果,并通过比较人类创建的两个知识图谱,证明了构建的知识图谱的质量高,能够提供新的事实知识,并公开了相关代码和知识图谱。
- EMNLPX-FACTR: 预训练语言模型多语言事实知识检索
该研究创建了一个跨 23 种不同语言的多语言基准测试,旨在评估语言模型中的事实知识检索能力,并提出了基于语言切换的方法来提高多语言模型获取知识的能力。