知识增强微调:更好地处理对话生成中的未知实体
本研究提出了一种基于图形的方法,利用实体节点和命名实体标签预测来加强上下文中未见实体的表示,以解决在对话生成中未见实体的逻辑解释问题,并通过实验表明该方法在开放数据集 Wizard of Wikipedia 上优于现有方法。
Jan, 2023
本文提出了一种新的方法来解决生物医学实体链接的问题,利用基于知识库的预训练和微调,以及多种类似词的构建方式来进行模型训练,这种方法在多项实验中都取得了最优结果。
Apr, 2022
通过将转换器模型与知识表示相关联,本论文研究了自然语言理解和生成的效果,并回答了以下关键研究问题:(i) 实体知识是否能够超越实体链接等实体为中心的任务,并带来更多的好处?(ii) 如何从原始文本中准确有效地提取这种结构化知识,尤其是嘈杂的网络文本?(iii) 除了结构化知识,其他类型的知识如何对改进自然语言处理任务有所贡献?研究表明,引入相关和最新的实体知识有助于虚假新闻检测,而面向实体的语言转换显著提高了零样本跨语言迁移的效果。在提取结构化知识方面,将负面样本整合和与实体规划一起训练显著提高了性能。此外,研究还发现,其他一般形式的知识,如参数化知识和精炼知识,有助于多模态和多语言知识密集型任务。这项研究展示了多元知识整合的实际好处,并鼓励在这个方向上进一步探索。
Mar, 2024
本文研究了在 fine-tuning 阶段明确地包含实体和实体描述的方法,并使用知识模块以及辅助任务来平滑不同层次表示之间的语义差距,并在四个知识相关任务和两个通用任务上实验,取得了新的最优结果。
Aug, 2022
使用预训练的双向语言模型将关系三元组转换为掩码句子,通过估计点间互信息来排名三元组的有效性,从而开发了一种生成常识知识的方法。该方法在新源中挖掘常识知识时优于显式训练的模型,说明无监督技术比目前的有监督方法更具推广性。
Sep, 2019
提出了一种用多个知识库来加强大型模型表示的方法,每个知识库都通过一个集成实体链接器来检索相关实体嵌入,然后通过单词与实体关注的形式更新上下文单词表示,经实验发现知识增强的 BERT 模型具有更好的性能,且运行时间与 BERT 相当。
Sep, 2019
本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型,该模型还利用了与每个话语相关的非结构化主题特定知识,并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分,还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。
May, 2022
本文通过在预训练中引入实体信号,将知识意识融入到语言模型的预训练中,无需改变 transformer 体系结构、插入显式知识层或添加语义信息外部存储。实验证明,仅通过添加这些实体信号进行预训练,可以在 transformer 参数中装载更多的知识,从而提高语言建模精度,并在 LAMA 知识探测任务中获得事实的正确性,利用边界分析显示出隐藏表示中的语义,同时表明我们的知识感知语言模型(KALM)可以作为一个可抛弃替换 GPT-2 模型,显著提高了零 - shot 问题回答等下游任务的表现。
Jun, 2020
知识库搭建从预训练语言模型开始,提出了一种扩展语言模型词汇量的方法,实现了多词汇实体的直接嵌入,这在知识图谱的链接预测任务和数据管理中的元数据完成方面迈出了重要的一步。
Oct, 2023