基于语法和句法的乌克兰语语料库分析工具

May, 2023

基于语法和句法的乌克兰语语料库分析工具

The Grammar and Syntax Based Corpus Analysis Tool For The Ukrainian Language

Daria Stetsenko, Inez Okulska

TL;DR该研究提供了一个文本挖掘工具 StyloMetrix 的概述，该工具最初为波兰语开发，后来扩展为英语和乌克兰语。研究人员使用计算语言学家和文学研究人员手工制作的各种度量衡来构建统计评估句法和语法特征的思路是直接而熟悉的，但对于乌克兰语等低资源语言，该工具仍需开发。该论文描述了 StyloMetrix 的流程和用于文本分类任务的一些实验，同时也描述了该包的主要限制和度量衡的评估程序。

Abstract

This paper provides an overview of a text mining tool the stylometrix developed initially for the Polish language and further extended for English and recently for →

text mining stylometrix computational linguistics syntactic patterns ukrainian

发现论文，激发创造

StyloMetrix: 一款用于表示文体向量的开源多语言工具

该研究提供了一个关于开源多语言工具 StyloMetrix 的概述，它提供了涵盖语法、句法和词汇等各个方面的风格测量文本表示。StyloMetrix 覆盖了四种语言：波兰语作为主要语言，英语、乌克兰语和俄语。每个特征的标准化输出可成为机器学习模型的有益课程，也可以成为任何深度学习算法中嵌入层的有价值补充。我们力求提供对 StyloMetrix 向量应用的简明而全面的概述，并解释开发的语言特征集合。实验证明，在使用简单算法如随机森林分类器、投票分类器、逻辑回归等进行监督内容分类时，取得了令人满意的结果。深度学习评估揭示了 StyloMetrix 向量在增强由 Transformer 体系结构提取的嵌入层中的实用性。StyloMetrix 已经被证明是机器学习和深度学习算法对执行不同分类任务的可靠来源。

Sep, 2023

俄语和乌克兰语的形态分析器和生成器

pymorphy2 是一种针对俄语和乌克兰语的词形分析器和生成器，使用大型的 OpenCorpora 和 LanguageTool 数据库，开发了一组语言学动机的规则，以便分析词形和生成现实世界文档中出现的生僻词汇，具有现代技术水平，易于使用、文档齐全、可扩展性强。

Mar, 2015

为乌兹别克语创建形态和句法标记语料库

本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题，开发了新的词性标注和句法标注标准，并提出了一个基于网络的工具来帮助标注。同时，我们共享了创建乌兹别克语语料库的第一阶段的经验结果。

Oct, 2022

风格指纹、词性标注和屈折语言：以波兰语为例的案例研究

本研究使用 NLP 技术中的 lemmatization 和 parsing，研究了词语和语法标记对于作者风格识别的效果，并在多种标记类型下进行了分类准确度的对比，结果显示虽然其性能较字词标记差，但不相差的程度不超过 15%。

Jun, 2022

Morph Call: 探究多语种 Transformer 的形态句法内容

本研究提出了 Morph Call，它是针对四种不同形态的印欧语言（英语，法语，德语和俄语）的 46 个探测任务套件，使用诱导句子扰动的检测方法，在神经元，层和表示水平上分析了四个多语言 transformers 的形态句法内容，其中包括其不太被探究的蒸馏版本，并研究了精调 POS 标记对模型知识的影响。研究结果表明，精调可以改善和降低探测性能，并改变形态句法知识在模型中的分布。代码和数据公开，希望填补 transformers 的研究空白。

Apr, 2021

乌克兰文本分类：跨语言知识迁移方法的探索

我们利用 NLP 的最新进展，探索跨语言知识转移方法，避免手动数据整理，以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题，并在三个文本分类任务上进行测试，提供最佳设置的 “配方”。

Apr, 2024

UzbekTagger: 一种基于规则的乌兹别克语词性标记器

本研究提出了一个低资源语言乌兹别克语的词性标注数据集和标注工具，使用一种基于规则的标注器，该标注器使用 12 种标签来标注单词的词性，通过使用前缀 / 后缀剥离方法对单词进行词干处理，该工具在乌兹别克文本中标注和识别单词的词性，并且是第一次公开提供乌兹别克语数据集和标注工具，也可以作为其他紧密相关土耳其语言的基础。

Jan, 2023

评估基于 Transformer 的多语言文本分类

研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析，指出哪些变量最影响语言建模的效果，通过计算词序和形态相似性指数等方法进行实证研究，最后通过多分类文本分类实验验证了研究结论。

Apr, 2020

基于大数据的俄语讽刺检测方法

我们提出了一组确定性算法，用于俄语屈折和自动文本合成，并实现在一个公开可用的网站上。这个服务提供词的屈折、单词匹配和语法正确的俄语文本合成的功能。我们的算法在 OpenCorpora 俄语语料库的标注语料上进行了性能测试，比较了其他解决方案，并用于估计俄语不同词性的形态学变异性和复杂性。

Jun, 2023

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998