CLSE: 语言学意义实体语料库

EMNLPNov, 2022

CLSE: Corpus of Linguistically Significant Entities

Aleksandr Chuklin, Justin Zhao, Mihir Kale

TL;DR本文介绍了如何处理元素实体以创建更具语言多样性的自然语言生成数据集，并构建了一个基于此数据集的评估基准，用于评估神经网络，模板和混合 NLG 系统的优缺点。

Abstract

One of the biggest challenges of natural language generation (NLG) is the proper handling of named entities. named entities are a common s

natural language generation named entities linguistic representation nlg datasets linguistically representative nlg evaluation benchmark

发现论文，激发创造

斯拉夫语跨语言命名实体语料库

该研究论文介绍了一个手动注释的语料库，包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类，以及命名实体的词形还原和链接。

Mar, 2024

面向广泛覆盖的命名实体资源：多元语言数据高效方法

使用平行语料库和神经音译模型提取多语言命名实体资源，对于下游任务：知识图谱扩充和双语词典感应非常有效。

Jan, 2022

关于字符语言模型在多语言命名实体识别中的性能

本研究通过分析不同语言下人名和非人名标记的差异，提出使用基于文字级别语言模型（CLMs）的特征来识别命名实体标记，并表明针对多语种文本，CLMs 能够在接近全面 NER 系统的性能水平下实现不同语言间的实体标记识别。同时通过添加简单的 CLM 特征，本文还提出了一种新的可具跨语言性的命名实体标记识别方法。

Sep, 2018

CREER：用于关系抽取和实体识别的大规模语料库

本文介绍了 CREER 数据集的设计和使用，该数据集注释了丰富的英语语法和语义属性，使用 Stanford CoreNLP Annotator 从维基百科明文中捕获语言结构，并遵循广泛使用的语言和语义注释，可以用于大多数自然语言处理任务以及数据集的扩展。这个大型监督式数据集可作为未来改进 NLP 任务性能的基础，并通过链接公开发布。

Apr, 2022

基于神经网络跨度的连续命名实体识别模型

本论文提出了一种名为 SpanKL1 的简单而有效的基于 Span 的模型，采用知识蒸馏和多标签预测技术，旨在解决命名实体识别领域中实体类型不断增加的问题，并在 OntoNotes 和 Few-NERD 等数据集上进行实验，结果表明 SpanKL 显著优于先前的方法，并显示出高实用价值。

Feb, 2023

中文小说多种类型命名实体识别语料库

基于最大规模的多文类文学命名实体识别语料库，研究文学作品中不同类型实体的特征，并提出了几种基线命名实体识别模型，并进行了跨文类和跨域实验，结果表明文类差异显著影响 NER 性能，尽管不如文体领域与新闻领域之间的领域差异大，文学 NER 仍需要改进且由于文学作品中实体的高多样性，Out-of-Vocabulary（OOV）问题更具挑战性。

Nov, 2023

课程学习中的生成实体类型

通过预训练语言模型和课程学习的方法，我们提出了一种新的生成式实体类型标注（GET）范例，其表现优于现有的实体类型标注模型。

Oct, 2022

mCL-NER: 多视角对比学习的跨语言命名实体识别

通过多视角对比学习，在跨语言命名实体识别任务中，对于语义和标记级别的表示进行对齐，扩展了不同语言之间的实体投影，同时结合自学习和标注源数据与无标注目标数据的方法，在 40 种语言的 XTREME 基准测试上实现了近 + 2.0 F1 分数的显著提高，并成为新的现有技术的顶级表现者。

Aug, 2023

自然语言企业搜索的查询理解

该研究介绍了一种基于自然语言的搜索引擎，它应用了深度学习的命名实体识别技术，实现了高效的客户关系管理平台，用户通过这个系统可以极大地节省时间，快速生成动态报告。

Dec, 2020

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022