增强文档级命名实体识别的标签一致性
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
通过提出 ConNER 一种新型一致性训练方法,习得一个对扰动和数据具有鲁棒性的模型,该方法通过对标注和未标注数据的翻译和丢失操作的表现进行一致性训练,提高了跨语言自适应性能,并在各种基线方法上取得了一致的改进效果。
Nov, 2022
我们提出了统一的标签感知令牌级对比学习框架,通过利用标签语义作为后缀提示来丰富上下文,同时优化上下文 - 上下文和上下文 - 标签对比学习目标,从而提高推广辨别性的上下文表示。广泛的实验表明我们的方法在各种传统测试领域和大规模少样本 NER 数据集上优于先前的最先进模型,微粒 F1 分数平均绝对增益达到 7%。进一步的分析揭示了我们模型受益于其强大的迁移能力和改进的上下文表示。
Apr, 2024
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
本文介绍了一种新的命名实体识别级联方法,它由三个步骤组成:首先在输入句子中识别候选实体,然后将每个候选实体链接到现有的知识库中,最后预测每个实体候选的细粒度类别。实验证明,外部知识库在准确分类细粒度和新兴实体方面具有重要意义,并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能,即使在使用高资源语言的知识库情况下,也能在低资源语言环境中获得良好的表现。
Apr, 2023
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
本论文提出了一种基于 transformer 的方法来解决在生物医学领域中监督命名实体识别(NER)的挑战,包括零样本和少样本 NER。该方法基于将多类令牌分类的任务转化为二进制令牌分类,并在更多数据集和医学实体上预训练,从中可以学习给定实体和潜在类之间的语义关系。使用 PubMedBERT 调整模型进行的实验结果表明,该方法具有识别有限样本中的新实体的能力,对于零样本 NER 的平均 F1 得分达到 35.44%,对于 10 样本和 100 样本 NER 的平均 F1 得分分别为 69.94%和 79.51%。该方法可与目前的先进零样本和少样本 NER 方法相媲美甚至更好。
May, 2023
通过向模型注入分类标签和词性信息,我们提出了一种简单的方法来改进生物医学命名实体识别(NER)。我们使用两种方法:第一种方法是先训练一个序列级分类器将句子分类为不同的类别,获取句子级别的标签(分类标签)。将这些标签注入 NER 模型,将分类标签转化为自然语言模板形式来改进分类器的准确性。第二种方法是同时学习分类标签和 NER 标签,并将词性标签注入模型以增加句法上下文,实验证明将分类标签信息与句法上下文相结合是非常有用的,并且优于基于 BERT 的基准模型。
Nov, 2023
本研究通过对三种语言的专家注释的命名实体数据集进行调查,展示了文本歧义和人工指南变更是高质量修订的差异性注释的主要因素,并对难以理解的实体的学生注释进行了调查,证明了从分布视角理解命名实体歧义的多向注释的可行性和必要性。
Feb, 2024
本研究提出了三种结构以实现多标签的命名实体识别,这三种方法是 BiLSTM n-CRF、BiLSTM-CRF-Smax-TF 和 BiLSTM n-CRF-TF。通过评估在 i2b2/VA 2010 和 i2b2 2012 共享任务数据集上的不同模型,本研究证明这些方法可以获得较高的准确性。
Aug, 2022