将挪威 UD 树库与实体和指代信息对齐

May, 2023

将挪威 UD 树库与实体和指代信息对齐

Aligning the Norwegian UD Treebank with Entity and Coreference Information

Tollef Emil Jørgensen, Andre Kåsen

TL;DR本文提出了一个整合了个体和共指注释数据的合并集合，该集合基于挪威两种书写形式中的通用依赖 (UD) 树库，即 Bokmål 和 Nynorsk。该合并后的数据集提供了首个挪威 UD 树库，其中包含命名实体和共指信息。

Abstract

This paper presents a merged collection of entity and coreference annotated data grounded in the Universal Dependencies (ud) treebanks for

entity coreference norwegian ud treebank

发现论文，激发创造

从斯坦福和宾州树库到英语通用依存关系的多层注释转换

本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明，多种语体下，纯 SD 到 UD 的转换具有高精度，只有 1.5% 的错误率，但如果访问纯语法树之外的注释，如实体类型和指代消解这样的注释，可以进一步提高精度，错误率可以降至不到 0.5%。我们表明，基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳，包括在使用黄金成分树时，主要是由于短语语法功能的不充分规范化。

Sep, 2019

神经交叉语言转移和有限注释数据应用在丹麦命名实体识别

该研究评估了跨语言转移模型在丹麦语命名实体识别中的表现，并研究了在极少量标注数据情况下的补充效果，以及阐述了丹麦语 NER 的性能。

Mar, 2020

探索通过通用注释进行多语言指代消解

基于 CorefUD 数据集和通用形态句法和共指注释，我们通过研究核心指代在不同语言、不同语体和不同层次上的特点，对 SotA 系统无法解决的最具挑战性情况进行错误分析，然后从通用形态句法注释中提取特征，并将这些特征集成到基线系统中，结果显示我们的最佳配置特征提高了 0.9% 的 F1 得分。

Oct, 2023

构建并评估通用命名实体识别英语语料库

本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程，我们生成了一个英语数据集并进行了描述和评估。此外，我们进行了一系列实验，以在精确度，召回率和 F1-measure 方面改善注释。最终数据集可供使用，建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分，我们打算继续改进注释过程并将其扩展到其他语言。

Dec, 2022

在 Twitter 上标注挪威语言各个方言的词性

本研究提供了新的标注有词性标签的挪威推特数据集，研究了对该数据集进行自然语言处理的挑战性，比较了不同模型对该数据集的表现，并分析了模型常见错误。

Oct, 2022

英语 UD 的报告卡：UD Treebank 是否更加一致？

探讨在 UD 英语树库的数据整合方面的进展和重要性，发现虽然数据整合取得了一定的进展，但联合训练仍可能受到不一致性的影响，从而影响了其利用更大的训练数据池的能力。

Feb, 2023

DaN+：丹麦嵌套命名实体和词汇规范化

介绍了 DaN+，一个新的、支持跨语种跨领域学习的丹麦嵌套命名实体（NEs）和词汇归一化的多领域语料库和标注指南。评估了三种策略来建模双层命名实体识别任务，证实多任务学习是最坚实的策略，并且在最规范的数据中，使用本语言 BERT 和词汇归一化是最有利的。

May, 2021

新闻文章中多样化文档内实体共指注释的编码手册

该研究论文提出了一种通过考虑近似一致性和桥接关系来扩展传统身份关系范围的新闻文章共指注释方案，并详细描述了如何使用相应的注释工具 Inception 来设置，如何注释新闻文章中的实体，如何将它们与不同的共指关系联系起来，并链接到 Wikidata 的全球知识图谱。本文讨论了这种多层次的注释方法在媒体偏见问题中的应用，并提供了一种创建多样性跨文档共指语料库的方法，该方法可以用于通过词选择和标注来分析媒体偏见。

Oct, 2023

AlbNER：一个阿尔巴尼亚语命名实体识别语料库

资源稀缺，如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER，一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明，模型大小对 NER 性能有轻微影响，而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。

Sep, 2023

NNE: 英语新闻中嵌套命名实体识别数据集

本文介绍了 NNE 数据集，这是一种精细的、嵌套的命名实体识别数据集，可应用于英语新闻文本中。该数据集包含多个命名实体类型、多层嵌套，希望其公开发布能推动嵌套 NER 新技术的发展。

Jun, 2019