评估命名实体识别中的人口统计偏见

Aug, 2020

评估命名实体识别中的人口统计偏见

Assessing Demographic Bias in Named Entity Recognition

Shubhanshu Mishra, Sijun He, Luca Belli

TL;DR通过合成语料库评估英文命名实体识别系统在不同人口群体中的偏差，结果表明模型更擅长识别两个数据集中特定人口群体的姓名，并且去偏向嵌入无法解决这个问题，最终结果表明基于字符的上下文词表示模型，例如 ELMo，跨人口群体的偏差最小。这项工作可以揭示由于在自动化知识库生成中系统性排除某些人口实体而导致的潜在偏见。

Abstract

named entity recognition (NER) is often the first step towards automated Knowledge Base (KB) generation from raw text. In this work, we assess the bias in various →

named entity recognition kb generation bias demographic groups elmo

发现论文，激发创造

男性对应个人，女性对应地点：命名实体识别中测量性别偏见

该论文研究了现有几种命名实体识别模型的偏见，特别是在将男性和女性姓名识别为人名实体中存在的差异。该研究评估了包含 139 年美国人口普查婴儿姓名的数据集上的 NER 模型，并发现相对较多的女性姓名未被识别为人名实体。作者还研究了这种偏差在几个业界和学术界中广泛使用的 NER 系统中的程度，并报告了这些模型的训练数据集中存在的偏见。该分析的结果产生了一个新的用于命名实体识别系统中性别偏见评估的基准。该基准的数据和代码将公开提供给研究人员使用。

Oct, 2019

跨文化姓名识别

该研究旨在改进个人姓名的识别，在识别不同文化背景下的姓名方面，通过实验比较结合字符和词的输入模型与传统的 NER 模型，发现该模型表现更好且可能提高准确率。

Jan, 2024

命名实体识别中的泛化：定量分析

本文旨在量化命名实体识别（NER）方法在 Web 内容和用户生成内容中的多样性如何影响其效果，并发现 NER 方法在具有有限训练数据的多样化数据类型中难以实现推广。文章还发现，领先的 NER 系统靠训练数据中的表面形式，很难进行推广。

Jan, 2017

高度不平衡数据下适应性命名实体识别

本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构，其中嵌入向量（Glove，BERT）的融合输入被用来增强模型的泛化能力，还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明，该方法显著提高了弱类的表现结果，并且只使用了非常少量的数据集。

Mar, 2020

动态命名实体识别

本研究介绍了一项新任务：Dynamic Named Entity Recognition（DNER），提供了一个框架，以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集，DNER-RotoWire 和 DNER-IMDb，我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。

Feb, 2023

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

揭示社交媒体评论的新型身份群体命名实体识别系统

我们开发了一种适用于社交媒体的具有命名实体识别功能的仇恨言论检测工具，该工具能准确识别攻击性言论并标记相关群体。在社交媒体的案例研究中证明了工具的实用性，并对不同类型的攻击进行了对比和分析。

May, 2024

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

深度学习模型中命名实体识别的最近进展综述

本文综述了深度神经网络在命名实体识别方面的应用，相对于传统的基于特征工程和监督或半监督学习算法的实体识别方法，神经网络在该领域中取得了更好的效果，并表明吸收过去的基于特征的 NER 系统的一些经验教训可以进一步提高性能。

Oct, 2019

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024