EnCore: 使用共指链预训练实体编码器
该论文介绍了一种可以构建鲁棒实体链接模型的方法,该方法将注意力放在建立细粒度实体属性的模型上,具有更好的泛化性能,使用维基百科类别的大型库存来远程标记数据并训练实体类型模型,使用软类型预测将提及链接到最相似的候选实体上。
Sep, 2019
本文介绍了一种模拟人类阅读过程并利用实体的指代信息来增强预训练语言模型中的词嵌入以提高模型性能的方法,头两种微调方式,即在预训练模型后添加额外的编码器层以关注实体的指代提及或构建关系图卷积网络来建模实体间的关系。结果表明,在微调阶段明确加入指代信息的方法比在预训练中加入指代信息的方法表现更好。
Oct, 2021
本研究提出了一种利用细粒度实体类型推断模型生成具备人类可读性,且能够直接用于实体相关任务的实体表示向量的方法,并针对特定领域实体优化表征,通过少量规则增加领域知识以提高性能。
Apr, 2020
本研究提出了一种基于集成方法和迁移学习的框架以及一种低成本的迁移学习方法,用于解决非英语语言的实体共指消解问题,并在 Arabic,Dutch 和 Spanish 三种语言上取得了新的最先进结果。
Jan, 2023
我们提出了一种基于双编码器框架的命名实体识别(NER)方法,该方法应用对比学习将候选文本片段和实体类型映射到相同的向量表示空间。该方法将 NER 视为一种表示学习问题,以最大化实体提及及其类型的向量表示之间的相似性,从而易于处理嵌套和平展式 NER,并能更好地利用噪声自我监督信号。我们介绍了一种新颖的动态阈值损失来解决命名实体识别这一双编码器公式的主要挑战,即将非实体范围与实体提及分离开来。实验表明,我们的方法在监督和远程监督设置下都表现良好,无论是在嵌套还是平展式 NER 情景下,在通用领域(例如 ACE2004、ACE2005)和高价值垂直领域(例如生物医学领域的 GENIA、NCBI、BC5CDR、JNLPBA)的标准数据集上均创造了新的技术水平。我们在 http URL 上发布了代码。
Aug, 2022
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
采用对比度表示学习方法的实体和事件共指解析技术,通过仅在推理时进行 n 个转换器计算的对比度学习技术,实现了对 ECB + 语料库关键指标的最先进结果和其他指标的竞争性。
May, 2022
通过实体链接,结合上下文信息和查询结果,我们提出了一种深度神经模型,用于精细化实体类型分类。在两个数据集上的实验结果表明,相对当前最先进水平,我们的方法分别取得了超过 5%的绝对严格准确度提高。
Sep, 2019
本文研究了在 fine-tuning 阶段明确地包含实体和实体描述的方法,并使用知识模块以及辅助任务来平滑不同层次表示之间的语义差距,并在四个知识相关任务和两个通用任务上实验,取得了新的最优结果。
Aug, 2022
本研究提出了使用大规模数据和先进技术针对 n-gram 的预训练编码器,并成功将其拓展到不同语言和领域中,得到了在多项 NLP 任务中表现优异的结果。
May, 2021