评估命名实体识别中的人口统计偏见
该论文研究了现有几种命名实体识别模型的偏见,特别是在将男性和女性姓名识别为人名实体中存在的差异。该研究评估了包含 139 年美国人口普查婴儿姓名的数据集上的 NER 模型,并发现相对较多的女性姓名未被识别为人名实体。作者还研究了这种偏差在几个业界和学术界中广泛使用的 NER 系统中的程度,并报告了这些模型的训练数据集中存在的偏见。该分析的结果产生了一个新的用于命名实体识别系统中性别偏见评估的基准。该基准的数据和代码将公开提供给研究人员使用。
Oct, 2019
本文旨在量化命名实体识别(NER)方法在 Web 内容和用户生成内容中的多样性如何影响其效果,并发现 NER 方法在具有有限训练数据的多样化数据类型中难以实现推广。文章还发现,领先的 NER 系统靠训练数据中的表面形式,很难进行推广。
Jan, 2017
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
我们开发了一种适用于社交媒体的具有命名实体识别功能的仇恨言论检测工具,该工具能准确识别攻击性言论并标记相关群体。在社交媒体的案例研究中证明了工具的实用性,并对不同类型的攻击进行了对比和分析。
May, 2024
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文综述了深度神经网络在命名实体识别方面的应用,相对于传统的基于特征工程和监督或半监督学习算法的实体识别方法,神经网络在该领域中取得了更好的效果,并表明吸收过去的基于特征的 NER 系统的一些经验教训可以进一步提高性能。
Oct, 2019
命名实体识别(NER)旨在从文本中提取命名真实世界对象并确定它们的类型,本文首先概述了最近流行的方法,然后探讨了其他调查中较少涉及的基于图和变换器的方法,包括大型语言模型(LLMs)。其次,重点介绍了适用于稀缺注释数据集的方法。第三,我们评估了主要 NER 实现在不同类型的数据集上的性能,并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。
Jan, 2024