适用于命名实体识别的可解释性多数据集评估

EMNLPNov, 2020

适用于命名实体识别的可解释性多数据集评估

Interpretable Multi-dataset Evaluation for Named Entity Recognition

Jinlan Fu, Pengfei Liu, Graham Neubig

TL;DR本文提出了一种可解释的评估方法，用于对自然语言处理任务中的命名实体识别进行分析，以帮助读者更好地理解不同模型及其相对优劣之处。通过将我们的分析工具提供给其他研究人员，我们希望能推动这一领域的进步。

Abstract

With the proliferation of models for natural language processing tasks, it is even harder to understand the differences between models and

natural language processing models named entity recognition methodology interpretable evaluation

发现论文，激发创造

用于神经 NLP 的精细可解释性评估基准

本文提出了一种新的基准来评估神经网络模型和显著性方法的解释能力，其中包含英文和中文标注数据以及用于评估解释能力的标记。实验结果揭示了三种模型和三种显著性方法的解释能力的优劣，希望这个基准可以促进建立值得信赖的系统的研究。

May, 2022

统计数据集评估：可靠性，难度和有效性

本论文提出了一个模型不可知的数据集评估框架，通过基于经典测试理论的统计分析，评估数据集的可靠性、难度和有效性等三个基本维度，并以命名实体识别为案例研究，介绍了 9 个统计指标用于评估数据集的质量，实验结果和人工评估验证了该框架的有效性，发现数据集质量对模型绩效有显著影响，因此在模型训练或测试前应进行数据集质量评估或针对性的数据集改进。

Dec, 2022

命名实体识别中的泛化：定量分析

本文旨在量化命名实体识别（NER）方法在 Web 内容和用户生成内容中的多样性如何影响其效果，并发现 NER 方法在具有有限训练数据的多样化数据类型中难以实现推广。文章还发现，领先的 NER 系统靠训练数据中的表面形式，很难进行推广。

Jan, 2017

神经模型泛化再思考：命名实体识别案例研究

本文在命名实体识别任务上，提出了一种新的泛化能力指标，通过在多个角度分析已有模型在泛化行为上的不同表现，历经深入实验分析，得出了现有神经网络命名实体识别模型在数据集偏差、注释错误等方面存在局限性，并提出了改进方向的训练方法。此外，作者还开源了一个涵盖最近 NER 研究论文的综述项目。

Jan, 2020

EntEval: 实体表示的综合评估基准

在这项工作中，我们提出了 EntEval：一个测试套件，用于评估实体表示的整体质量，并通过使用维基百科中的自然超链接注释开发了学习更好的实体表示的培训技术，通过有效目标的检测，显示这些目标可以改善多个 EntEval 任务上的强基线。

Aug, 2019

评估自然语言处理模型的神经元解释方法

该研究提出了一种评估框架，用于比较不同神经元解释方法，通过该框架，可以评估任何新的神经元解释方法，通过与其他大多数方法的兼容性来评估其性能。

Jan, 2023

GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

命名实体识别（NER）模型在各种自然语言处理（NLP）任务中起着关键作用，包括信息抽取（IE）和文本理解。在学术写作中，对机器学习模型和数据集的引用是各种计算机科学出版物的基本组成部分，并需要准确的模型识别。尽管 NER 取得了进展，但现有的真实数据集未将细粒度类型（如 ML 模型和模型架构）视为单独的实体类型，因此基准模型无法识别它们。本文发布了一个包含 100 个手动注释的全文科学出版物的语料库，并提供了一个围绕 ML 模型和数据集的 10 种实体类型的基准模型。为了提供对 ML 模型和数据集如何被提及和利用的细致理解，我们的数据集还包含了与非正式提及相关的注释，例如 “我们的 BERT 模型” 或 “图像 CNN”。您可以在此 https URL 找到真实的数据集和代码以复制模型训练。

Nov, 2023

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

评估命名实体识别：对巴西企业收益电话会议转录中单语和多语言 Transformer 模型的比较分析

研究涉及到从金融领域的葡萄牙语文本中提取信息的 NER 技术，评估了在葡萄牙语训练的 BERT 模型和多语言模型之间的性能差异，同时展示了关键词识别任务作为文本生成问题的新方法。

Mar, 2024

联邦命名实体识别

本文通过将联邦学习应用在命名实体识别任务中，使用具有语言无关性的 CoNLL-2003 数据集作为基准数据集，Bi-LSTM-CRF 模型作为基准模型，研究了联邦学习的性能，展示了联邦学习相对于集中式模型在不同的异构学习环境下的性能降低，并讨论了联邦学习在自然语言处理应用领域中的现存挑战和未来研究方向。

Mar, 2022