本文提出了一种神经网络模型来识别医学文档中具有不连续序列和重叠结构的实体,通过将这个问题分解成两个子任务:检测所有重叠跨度,并将这些跨度组合成不连续的实体。使用两个神经组件学习这些子任务的过程,并能够在标准数据集上实现最先进的性能。
Sep, 2019
提出了一种新的基于 span 的模型,旨在准确地识别重叠和不连续的命名实体,并通过关系分类判断实体片段之间的关系。实验结果表明,这种模型在处理重叠和不连续的命名实体时具有很高的竞争力。
Jun, 2021
本文提出了一种新的分割超图表示法来建模大量实际数据集中普遍存在的重叠实体提及,在此基础上构建的模型具有比以前的模型更好的表示能力,且推理复杂度低。配合特征学习的神经网络,我们的模型在三个带有重叠提及的基准数据集上实现了最新的性能。
Oct, 2018
本文提出了一种基于概率图模型的联合实体消岐方法,充分利用了文档级别实体共现和上下文信息,避免昂贵的训练过程和专业特征工程,通过节点置信传递来做近似推断,能够在实时场景中快速高效地工作,对多种基准数据集进行了准确性测试,表现与现有先进方法相当甚至更好。
Sep, 2015
本文提出了一种基于 Mac 模型的分段图算法,用于解决实体识别中异构实体的问题。该算法可将异构实体视作图中的节点,通过识别图中的最大团并连接团内的连续实体段,实现对异构实体的非参数化处理,在三个基准数据集上的结果证明该方法领先于目前的最优算法,并且速度提高了 5 倍。
通过对输出进行限制,可以训练出一个标注器,其与 CRF 相比可以实现两倍的交叉熵损失速度,差异在 F1 方面不具有统计学意义,从而有效消除了对 CRF 的需要。
Oct, 2020
该论文提出了一种新模型,能够识别重叠提及,引入了一个新的提及分隔符概念和多图表示,能够有效地捕捉提及之间重叠的情况,并证明可以实现高效准确的推理,此外,通过在标准数据集上进行大量的实证分析,证明了该方法的有效性。
提出了一种基于转换和使用通用神经编码的简单有效的模型,能够识别医学命名实体识别中存在的连续和不连续的提及,同时在三个生物医学数据集上实验表明,该模型能够有效识别不连续提及,不会牺牲连续提及的准确性。
Apr, 2020
提出了一种编码器 - 解码器模型来消除实体歧义,通过更详细的实体描述来改进基准性能,取得了强大而稳健的性能,尤其在 ZELDA 基准上比 GENRE 提高了 +1.5%,并在 GERBIL 基准的全流程实体链接中比 EntQA 提高了 +1.5%。
Apr, 2024
本文提出了一种结合对比学习的命名实体识别模型 (WCL-BBCD),模型先训练文本中的句子对,根据相似度微调 BERT,然后与 BiLSTM-CRF 结合进行命名实体识别,并利用知识图谱校正识别结果,实验证明该模型在 CoNLL-2003 英语数据集和 OntoNotes V5 英语数据集上的表现优于其他类似的模型。
Mar, 2022