反映土耳其语聚合性质的 BOUN 语料库的增强
本文介绍我们开发的用于土耳其语依存分析的资源,这些资源包括新型的手动标注树库(BOUN Treebank)、我们采用的指南以及一个新的标注工具(BoAT)。我们采用的手动标注过程是由四名语言学家和五名自然语言处理专家组成的团队塑造和实施的。BOUN Treebank 是迄今为止最大的土耳其语树库之一,包含来自各种主题的 9,761 个句子,包括传记文本、国家报纸、指令性文本、流行文化文章和短文。此外,我们还报告了在 BOUM Treebank 和其他两个土耳其树库上获得的最新依赖解析器的解析结果。我们的结果表明,统一土耳其标注方案并引入更全面的树库可提高依赖分析的性能。
Feb, 2020
本研究介绍了一种基于 BoAT v1 经验设计与实现的新型依存关系标注工具 BoAT v2,它是一种面向注释者用户体验的多用户、基于 Web 的依存关系标注工具,支持在提高有效标注的速度的同时,显著提高注释者的用户体验,并支持注释者之间的协作。
Jul, 2022
使用预先训练的大型语言模型进行注释方法的研究,针对奥斯曼土耳其语第一个依赖树库。实验结果表明,通过迭代使用多语言 BERT 解析模型进行伪标注数据,手动纠正伪注释以及使用纠正的注释对解析模型进行微调,我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分,将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性,从而实现奥斯曼土耳其语文档的自动化分析。
Feb, 2024
本文提出了第一个适用于土耳其语的自动词汇简化系统,该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化,以解决土耳其语作为低资源语言难以逼近的文本简化任务。
Jan, 2022
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
本文描述了土耳其话语库 1.2 版本,介绍了一项新添加的评估,分析了构成单元之间的三种常见依存模式,发现隐含关系比显性关系更常见,两个相邻的隐含话语关系一起使用的频率比显式关系更高,并且存在全嵌入和部分包含的话语关系。
Jul, 2022
该文介绍了基于土耳其语形态学的全面双层规范的 POS 标记器,通过局部邻域约束、启发式和有限量的统计信息,实现了形态学消歧,可以在很少的用户介入下准确地标记约 98-99%的文本。并且通过该标记器形态上消歧的句子,土耳其语 LFG 解析器的平均歧义解析减少了约 50%,且解析速度接近 2.5 倍。该标记功能不仅局限于土耳其语,还可以应用于具有适当形态学分析接口的任何语言。
Jul, 1994
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练,发现语言内嵌入是必要的,并且在训练集较大时可以避免形态分析。最终,我们发现这些模型在人工翻译的评估集上表现良好,并将所有的代码、模型和数据公开分享。
Apr, 2020
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。
May, 2016