- 历史文本的对比实体指代消解
通过历史文本中的大规模历史文献收集、交叉文献共指解析、实体消歧和评估数据,本研究对历史文本中的实体消歧问题进行了改进。
- 新闻通讯:一个包含百年历史新闻的大规模结构化数据库
通过深度学习管道,我们重建了一份由成千上万份当地报纸的原始图像扫描组成的数百 TB 文本的归档,并创建了一个包含 1878 年至 1977 年间的 270 万个独特公共领域美国通讯社文章的数据集,该数据集进行了地理参考标记和自定义神经主题分 - 高效的生物医学实体链接:低资源技术下的临床文本标准化
通过学习实体的同义词对,我们提出了一种用于临床文本标准化的方法,通过关联多个术语,从而显著减少训练数据和资源消耗,并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上,我们的方法表现 - ACL基于融合实例解码的实体消歧
提出了一种编码器 - 解码器模型来消除实体歧义,通过更详细的实体描述来改进基准性能,取得了强大而稳健的性能,尤其在 ZELDA 基准上比 GENRE 提高了 +1.5%,并在 GERBIL 基准的全流程实体链接中比 EntQA 提高了 +1 - EntGPT:将生成式大型语言模型与知识库进行链接
通过实体消歧任务,我们使用三步硬提示方法探索大型语言模型 (LLM) 的性能,改进模型的原始性能并与现有方法进行比较,以提高模型的知识建模和准确性。
- EMNLP通过建模主题和分类依赖进行一致的实体消岐
通过引入无监督变分自编码器和外部类别内存,本文提出了一种新的实体消岐方法,名为 CoherentED,以提高实体预测的一致性。该模型在流行的实体消岐基准测试中取得了最新的成果,并在具有挑战性的长文本场景中表现出卓越的性能。
- 通用知识图谱嵌入
从大规模互连的知识源中融合大型知识图谱,以学习通用知识图谱嵌入向量,使得这些嵌入能够在多个知识图谱中进行语义搜索和实体对齐,从而提高链接预测的语义表示能力。
- 解决实体选择中的间接引用表达式
本研究使用自然语言表达解决实体对话引用消歧问题,并开发了 AltEntities 数据集以评估大型语言模型在此任务上的效能,结果表明其在实际环境中的准确率可达 82%-87%。
- 专注于情境:改进被忽略的实体消歧
本文介绍了一种迭代式方法 NICE,利用实体类型信息来支持上下文,避免过度依赖基于频率的先验知识,以达到更好的实体消岐性能结果。
- 实体消歧与实体定义
本文解决了 Entity Disambiguation 方向在仅仅使用 Wikipedia 标题作为文本表示的情况下,标题信息不足或相互区分度不够的局限性,并探讨了更加丰富的文本表达方式如何解决这一问题。作者认为,相比其他方法,采用 ext - ACL基于知识库推理的实体消歧方法改进
提出了一种可在符号知识库中通过推理以完全可微的方式连接实体的实体消歧模型,该模型可以使用所有 KB 信息,超过六个著名实体消歧数据集中的现有模型,并在基于不常见和模糊实体的 ShadowLink 数据集中提高 12.7 F1。
- EMNLP具有判别校正的高度并行自回归实体链接
本文提出了一种高效的生成方法,采用并行自回归流程和浅层解码器实现实体消岐和链接,并增加了区分度组件,达到了比之前的方法更快( >70 倍)更准确的效果,代码开源。
- 利用先验探测评估实体消岐的鲁棒性:以实体压制为例
使用 ShadowLink 数据集评估实体链接 (EL) 系统的性能,结果显示先验概率偏差和实体遮蔽对较常见实体和较少见实体的准确性都有很大影响。
- 评估实体消歧和流行度在检索导向的自然语言处理中的作用
为了评估检索器的实体消歧能力,我们提出了一种评估基准(AmbER)集。我们在这项研究中使用 AmbER 集为三种流行的开放域任务创建和评估检索器,并发现检索器存在受欢迎程度偏差,对于名称下不那么流行的实体的检索性能明显下降。AmbER 集显 - 使用双编码器快速有效的生物医学实体链接
本研究提出了一种基于 BERT 的双编码器模型,可一次处理文档中的多个关键词,解决了现有模型效率低的问题,在生物医学实体链接领域取得了与现有模型相当的准确性,并对其进行了改进,实现了端到端生物医学实体链接,表现出更好的性能.
- ICLR自回归实体检索
GENRE 是第一个通过自回归方式逐个 token 生成实体名称以检索实体的系统,此方法可以在自动编码器中直接捕捉上下文和实体名称之间的关系,从而减少内存占用并提高检索效率。
- EMNLPEntEval: 实体表示的综合评估基准
在这项工作中,我们提出了 EntEval:一个测试套件,用于评估实体表示的整体质量,并通过使用维基百科中的自然超链接注释开发了学习更好的实体表示的培训技术,通过有效目标的检测, 显示这些目标可以改善多个 EntEval 任务上的强基线。
- IJCAI利用多段双向上下文匹配进行实体同义词发现
该论文提出了一种多环境下的同义词发现框架,使用分布式假设和神经网络模型 SYNONYMNET,从自由文本语料库中检测出实体的同义词,以提高实体消歧或知识图谱规范化等任务的效果和稳健性。
- 端到端的神经实体链接
本文提出了第一个神经网络端到端实体链接系统,通过学习文本中所有可能识别结果的上下文相似性得分,实现了提及检测和实体歧义消解的联合(Entity Linking)算法,方法不需要其他工程特定特征,且在足够的训练数据情况下优于市场已有系统,在测 - COLING输出空间搜索的联合神经实体消歧
本文介绍了一种使用 Limited Discrepancy Search(LDS)同时结合了局部上下文信息和全局证据的实体消岐模型。在 CoNLL 2003 和 TAC 2010 基准测试中验证了该模型的有效性。