将挪威 UD 树库与实体和指代信息对齐
本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。
Sep, 2019
该研究评估了跨语言转移模型在丹麦语命名实体识别中的表现,并研究了在极少量标注数据情况下的补充效果,以及阐述了丹麦语 NER 的性能。
Mar, 2020
基于 CorefUD 数据集和通用形态句法和共指注释,我们通过研究核心指代在不同语言、不同语体和不同层次上的特点,对 SotA 系统无法解决的最具挑战性情况进行错误分析,然后从通用形态句法注释中提取特征,并将这些特征集成到基线系统中,结果显示我们的最佳配置特征提高了 0.9% 的 F1 得分。
Oct, 2023
本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程,我们生成了一个英语数据集并进行了描述和评估。此外,我们进行了一系列实验,以在精确度,召回率和 F1-measure 方面改善注释。最终数据集可供使用,建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分,我们打算继续改进注释过程并将其扩展到其他语言。
Dec, 2022
本研究提供了新的标注有词性标签的挪威推特数据集,研究了对该数据集进行自然语言处理的挑战性,比较了不同模型对该数据集的表现,并分析了模型常见错误。
Oct, 2022
探讨在 UD 英语树库的数据整合方面的进展和重要性,发现虽然数据整合取得了一定的进展,但联合训练仍可能受到不一致性的影响,从而影响了其利用更大的训练数据池的能力。
Feb, 2023
介绍了 DaN+,一个新的、支持跨语种跨领域学习的丹麦嵌套命名实体(NEs)和词汇归一化的多领域语料库和标注指南。评估了三种策略来建模双层命名实体识别任务,证实多任务学习是最坚实的策略,并且在最规范的数据中,使用本语言 BERT 和词汇归一化是最有利的。
May, 2021
该研究论文提出了一种通过考虑近似一致性和桥接关系来扩展传统身份关系范围的新闻文章共指注释方案,并详细描述了如何使用相应的注释工具 Inception 来设置,如何注释新闻文章中的实体,如何将它们与不同的共指关系联系起来,并链接到 Wikidata 的全球知识图谱。本文讨论了这种多层次的注释方法在媒体偏见问题中的应用,并提供了一种创建多样性跨文档共指语料库的方法,该方法可以用于通过词选择和标注来分析媒体偏见。
Oct, 2023
资源稀缺,如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER,一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明,模型大小对 NER 性能有轻微影响,而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。
Sep, 2023
本文介绍了 NNE 数据集,这是一种精细的、嵌套的命名实体识别数据集,可应用于英语新闻文本中。该数据集包含多个命名实体类型、多层嵌套,希望其公开发布能推动嵌套 NER 新技术的发展。
Jun, 2019