俄语和乌克兰语的形态分析器和生成器
该研究提供了一个文本挖掘工具 StyloMetrix 的概述,该工具最初为波兰语开发,后来扩展为英语和乌克兰语。研究人员使用计算语言学家和文学研究人员手工制作的各种度量衡来构建统计评估句法和语法特征的思路是直接而熟悉的,但对于乌克兰语等低资源语言,该工具仍需开发。该论文描述了 StyloMetrix 的流程和用于文本分类任务的一些实验,同时也描述了该包的主要限制和度量衡的评估程序。
May, 2023
DEMorphy 是一个基于德语词形字典构建的德语词形分析器,提供了德语变格后缀的猜测器,其使用 Python 实现,易于使用,适用于学术和商业目的,并带有相关文档。
Mar, 2018
该论文提出了对乌兹别克语词汇进行形态分析、寻找词干、确定词性信息的模型,经过验证和评估后,该模型在词级别的准确度超过了 91%,并且已经以基于 Web 应用程序和开源 Python 库的形式提供。
May, 2024
我们提出了一组确定性算法,用于俄语屈折和自动文本合成,并实现在一个公开可用的网站上。这个服务提供词的屈折、单词匹配和语法正确的俄语文本合成的功能。我们的算法在 OpenCorpora 俄语语料库的标注语料上进行了性能测试,比较了其他解决方案,并用于估计俄语不同词性的形态学变异性和复杂性。
Jun, 2023
本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题,开发了新的词性标注和句法标注标准,并提出了一个基于网络的工具来帮助标注。同时,我们共享了创建乌兹别克语语料库的第一阶段的经验结果。
Oct, 2022
我们提供了一个开源网络服务,该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合,在推理时能够显示超过两个竞争基准:深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力,从而优于现有的形态分析器 MorphoDiTa;同时,深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于 MorphoDiTa,我们在词干化方面的误差减少了 50%,在词性标记方面的误差减少了 58%,同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库 PDT-C 1.0 上进行训练的,训练后的模型可以在此 https URL 上获取。我们将该工具提供为一个网络服务部署在此 https URL 上。源代码可以在 GitHub(此 https URL)上找到,配有用于简单使用的 Python 客户端。模型的文档可以在此 https URL 找到。
Jun, 2024
该研究介绍了 Universal Morphology UniMorph 项目在收集、标注和发布语言复杂形态学数据和工具方面所取得的进展,旨在改善自然语言处理技术处理全球语言的能力,利用通用标记体系 UniMorph,结合词源及词形态特征,使每个词的形态学信息都能得到充分表达和利用。
Oct, 2018
本研究提出了 Morph Call,它是针对四种不同形态的印欧语言(英语,法语,德语和俄语)的 46 个探测任务套件,使用诱导句子扰动的检测方法,在神经元,层和表示水平上分析了四个多语言 transformers 的形态句法内容,其中包括其不太被探究的蒸馏版本,并研究了精调 POS 标记对模型知识的影响。研究结果表明,精调可以改善和降低探测性能,并改变形态句法知识在模型中的分布。代码和数据公开,希望填补 transformers 的研究空白。
Apr, 2021
本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具,使用一种基于规则的标注器,该标注器使用 12 种标签来标注单词的词性,通过使用前缀 / 后缀剥离方法对单词进行词干处理,该工具在乌兹别克文本中标注和识别单词的词性,并且是第一次公开提供乌兹别克语数据集和标注工具,也可以作为其他紧密相关土耳其语言的基础。
Jan, 2023