麦宝注释指南
我们提出了第一个多方言巴伐利亚树库(MaiBaam),通过 UD 手动标注了词性和句法依赖信息,涵盖多个文本流派,突出了巴伐利亚语和德语之间的形态句法差异,并展示了说话者拼写的丰富变化。我们的语料库包括 15k 个标记,涵盖了三个国家 Bavarian-speaking 区域的方言。我们提供了基准解析和词性标注结果,并公开了我们的数据集、语言特定的指南和代码,以支持进一步的巴伐利亚语法研究。
Mar, 2024
为了简化未监督学习句法结构的研究并标准化其最佳实践,我们提出了由十二个通用词性类别组成的标签集,同时我们还开发了一种映射由 25 个不同的树库标签集转换为这个通用集的方法。与原始的树库数据相结合,这个通用标签集和映射生成了一个由 22 种不同语言的常见词性组成的数据集。我们通过两个实验来突出使用这个资源的优点,其中一个实验报告了未使用黄金标准词性标记进行无监督语法归纳的竞争准确性。
Apr, 2011
本文介绍了一个为德语文本开发的标注方案和标注工具,旨在基于论述结构进行表征,同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析,并重点介绍了在项目中开发的工具及其应用。
Jul, 1998
本研究提出了通用语义标注的任务,为广泛覆盖的多语言文本提供了更好的语义分析,使用具有语言中立性和信息丰富的标签对词汇进行标注,为跨语言语义分析提供了支持。语义标注在平行意义银行中的应用支持这些论点,并促进形式词汇语义学和跨语言投影,这个研究在一份小的语料库上注释了它的语义标注,并提出了通用性语义标注的新的基线结果。
Sep, 2017
本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks,包含 945 个 Magahi 句子和约 500 个 Braj 句子,标注他们的词形、词性、形态学特征和通用依存关系,描述了这两种语言中不同的依存关系,并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。
Apr, 2022
本文介绍了一种基于统计模型的马拉地语词性标注器的开发方法,使用 Unigram、Bigram、Trigram 和 HMM 方法,以 77.38%、90.30%、91.46%和 93.82%的准确率作为评估指标,并提出了一个用于标记马拉地文本的标记集。
Oct, 2013
使用预先训练的大型语言模型进行注释方法的研究,针对奥斯曼土耳其语第一个依赖树库。实验结果表明,通过迭代使用多语言 BERT 解析模型进行伪标注数据,手动纠正伪注释以及使用纠正的注释对解析模型进行微调,我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分,将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性,从而实现奥斯曼土耳其语文档的自动化分析。
Feb, 2024
本文介绍我们开发的用于土耳其语依存分析的资源,这些资源包括新型的手动标注树库(BOUN Treebank)、我们采用的指南以及一个新的标注工具(BoAT)。我们采用的手动标注过程是由四名语言学家和五名自然语言处理专家组成的团队塑造和实施的。BOUN Treebank 是迄今为止最大的土耳其语树库之一,包含来自各种主题的 9,761 个句子,包括传记文本、国家报纸、指令性文本、流行文化文章和短文。此外,我们还报告了在 BOUM Treebank 和其他两个土耳其树库上获得的最新依赖解析器的解析结果。我们的结果表明,统一土耳其标注方案并引入更全面的树库可提高依赖分析的性能。
Feb, 2020
本文提出了一种新的神经网络模型,用于联合部分词性标注和依赖解析,将 BiLSTM 标记组件结合到 BIST 依赖解析器中,可对英语 Penn 语料库进行联合学习,模型在 LUS 和 UAS 评分上分别达到 94.51% 和 92.87%,并在多个评测数据集上都取得了最佳表现。
Jul, 2018
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020