CLASSLA-Stanza：南斯拉夫南斯拉夫语言的语言处理的下一步

Aug, 2023

CLASSLA-Stanza：南斯拉夫南斯拉夫语言的语言处理的下一步

CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages

Luka Terčon, Nikola Ljubešić

TL;DR我们介绍了基于Stanza自然语言处理流水线的南斯拉夫语言的自动语言注释流水线CLASSLA-Stanza，描述了其相对于Stanza的主要改进，并详细描述了最新2.1版本的流水线的模型训练过程。我们还报告了流水线在不同语言和方言上产生的性能分数。CLASSLA-Stanza在所有支持的语言上表现出一致的高性能，并在所有支持的任务上优于或扩展了其父流水线Stanza。我们还介绍了流水线的新功能，能够高效处理网络数据，以及导致其实施的原因。

Abstract

We present classla-stanza, a pipeline for automatic linguistic annotation of the south slavic languages, which is based on the Stanza

发现论文，激发创造

UDPipe于SIGMORPHON 2019: 上下文嵌入，形态类别规则化，语料库合并

我们在SIGMORPHON2019共享任务中对UDPip2.0进行修改，使用预训练的上下文化嵌入(BERT)作为网络的附加输入，使用单独的形态特征作为正则化，并合并了同一语言的选定语料库，在词形还原任务中，我们的系统的准确性达到了95.78，超过所有提交的系统，且在词态分析方面取得了93.19的准确度，是一个非常有前途的研究。

Aug, 2019

Stanza：一个针对多种自然语言的Python自然语言处理工具包

Stanza是一个支持66种人类语言的Python自然语言处理工具包，具有语言无关的完全神经管道，包括标记化，词形变化，词性和形态特征标记，依存分析和命名实体识别。

Mar, 2020

BenchCLAMP：语义解析语言模型评估基准

引入BenchCLAMP，这是一种用于评估受限语言模型解析的基准测试，可通过提示或经过微调的语言模型的受限解码生成基于输入文本分析的语义输出。在BenchCLAMP中，为六个语义解析数据集提供了上下文无关文法，支持低、中、高三种资源分割，并提供了易于使用的工具包，以便语言模型开发人员进行语义分析评估。

Jun, 2022

基于语法和句法的乌克兰语语料库分析工具

该研究提供了一个文本挖掘工具StyloMetrix的概述，该工具最初为波兰语开发，后来扩展为英语和乌克兰语。研究人员使用计算语言学家和文学研究人员手工制作的各种度量衡来构建统计评估句法和语法特征的思路是直接而熟悉的，但对于乌克兰语等低资源语言，该工具仍需开发。该论文描述了StyloMetrix的流程和用于文本分类任务的一些实验，同时也描述了该包的主要限制和度量衡的评估程序。

May, 2023

Antarlekhaka: 多任务自然语言注释的综合工具

该研究论文介绍了 Antarlekhaka，一种用于手动注释与自然语言处理（NLP）相关任务的综合工具。该工具支持分布式注释，适用于不同语言，并具备用户友好界面和广泛的 NLP 任务注释功能。

Oct, 2023

CLASSLA-web: 含有语言和体裁标注的南斯拉夫语言可比网页语料库

本文介绍了一套高度可比的斯拉夫南部语言空间中斯洛文尼亚、克罗地亚、波斯尼亚、黑山、塞尔维亚、马其顿和保加利亚的网络语料库，总计包含了来自2600万个文档的130亿个文本标记。这些语料库的可比性通过统一的爬取设置和相同的爬取和后处理技术得到保证，它们都经过了最先进的CLASSLA-Stanza语言处理管道的语言注释，并通过基于Transformer的多语言X-GENRE分类器增强了文档级别的体裁信息，从而进一步提高了语言注释和元数据的可比性。对这些语料库进行的体裁分析表明，七个语料库中的体裁分布相对一致，各语言社区的经济实力解释了最主要的体裁类别的变化。对比不同语料库中的体裁类别分布显示，来自较不发达国家的网络语料库主要由新闻文章构成，而来自经济更发达国家的网络语料库则新闻内容的比例较小，而推广和观点性文本的比例较大。

Mar, 2024

斯拉夫语跨语言命名实体语料库

该研究论文介绍了一个手动注释的语料库，包含六种斯拉夫语言的命名实体。该研究使用基于Transformer的神经网络架构和预训练的多语言模型进行命名实体识别和分类，以及命名实体的词形还原和链接。

Mar, 2024

CMULAB：一个用于训练和部署自然语言处理模型的开源框架

使用自然语言处理工具需了解语言本身、熟悉最新模型和训练方法，并具备部署这些模型的技术能力。本文介绍了CMU语言注释后端，一个开源框架，简化了模型部署和连续的人机交互微调过程，使语言社区成员和语言学家能够使用自然语言处理工具。CMULAB可以让用户快速适应和扩展现有的语音识别、OCR、翻译和句法分析工具，即使训练数据有限。我们描述了目前可用的各种工具和API，以及开发人员如何轻松地将新模型/功能添加到该框架中。

Apr, 2024

捷克形态句法分析的开源网络服务与形态字典增强的深度学习

我们提供了一个开源网络服务，该服务用于捷克形态句法分析。该系统将深度学习模型与高精度形态词典的重评分相结合，在推理时能够显示超过两个竞争基准：深度学习模型确保了对于未在词汇表中的词汇的泛化和更好的消歧能力，从而优于现有的形态分析器MorphoDiTa；同时，深度学习模型通过推理时利用手动精心编辑的形态词典来获益。相较于MorphoDiTa，我们在词干化方面的误差减少了50％，在词性标记方面的误差减少了58％，同时还提供了依赖性分析。该模型是在目前最大的捷克形态句法语料库PDT-C 1.0上进行训练的，训练后的模型可以在此https URL上获取。我们将该工具提供为一个网络服务部署在此https URL上。源代码可以在GitHub（此https URL）上找到，配有用于简单使用的Python客户端。模型的文档可以在此https URL找到。

Jun, 2024

捷克詩人的 GPT：利用語言模型生成捷克詩歌詩節

我们引入了一种新的模型，用于在捷克语中生成诗歌，该模型在预训练的大型语言模型的基础上进行了微调。我们展示了在诗歌文本中明确指定诗节参数来引导生成过程可以大大提高模型的效果。我们还发现适当的分词非常关键，基于音节或单个字符而不是子词的分词方法在生成诗歌节的方面表现更好。我们通过引入“强制生成”技术进一步改进了结果，根据已生成的文本在推理时增加了韵律和诗句参数的明确规定。我们评估了一系列设置，表明我们提出的方法在生成的诗歌的韵律和度量方面实现了高准确性的形式质量。

Jun, 2024