- ACL丰富 NArabizi 树库:多方面支持资源匮乏的语言的方法
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
- CGELBank 注释手册 v1.0
CGELBank 是基于从《剑桥英语语法》中推导出的一种英语句法形式主义的树库和相关工具,本文概述了 CGELBank 注释方案的特殊性。
- 将挪威 UD 树库与实体和指代信息对齐
本文提出了一个整合了个体和共指注释数据的合并集合,该集合基于挪威两种书写形式中的通用依赖 (UD) 树库,即 Bokmål 和 Nynorsk。该合并后的数据集提供了首个挪威 UD 树库,其中包含命名实体和共指信息。
- 反映土耳其语聚合性质的 BOUN 语料库的增强
本研究旨在通过引入新的注释约定来解决土耳其语在 BOUN Treebank 中的空态词素、高度生产的派生过程和混合词素等问题,并基于新注释的数据集进行了依赖关系分析和工具更新。
- 在课堂中建立濒危语言资源:Kakataibo 的通用依赖
本文介绍了一种用于已濒危语言 ——Kakataibo 建立 Universal Dependencies treebank 的方法。作者采用合作式的方法,先讨论了此举的可行性,然后介绍了 treebank 的说明和特征,并对语料库进行了研究 - 奥里亚语通用依存树库
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行 - 芬兰语依存句法分析的跨领域评估
本研究针对芬兰文超领域分析,提出了一个包含五个不同数据源的 UD Finnish-OOD 超领域树库和大量的超领域分析评估。其中新的 Finnish-OOD 树库比之前的树库更具挑战性,为超领域应用提供了有价值的信息。
- EMNLP语义结构的句法支架
本文介绍了句法脚手架的方法,将句法信息应用于语义任务。通过多任务目标训练期间的语料库,避免无谓的运行时句法处理操作。作者在 PropBank 语义、框架语义和共指解析任务上均取得了竞争力的结果,改进了现有的基线模型。
- ACL将推文解析为通用依存关系
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 T - 银河依赖树库:通过合成新语言获得更多数据
我们发布了 Galactic Dependencies 1.0,这是一个大型的合成语言集,旨在为旨在适应不熟悉的语言的 NLP 方法提供训练和开发数据。这些合成树库是通过随机排列名词和 / 或动词的从属语以匹配其他真实语言的词序从真实树库产 - EMNLP协调边界预测的神经网络
基于神经网络的模型用于协调边界预测,通过多个 LSTM 网络,并在 Treebank 上进行训练,展示了与两个现有技术的比较,以及在 Genia 语料库上的改进。
- MM学习者英语的通用依存关系
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。