塞尔维亚语言建模的新文本语料库

May, 2024

塞尔维亚语言建模的新文本语料库

New Textual Corpora for Serbian Language Modeling

Mihailo Škorić, Nikola Janković

TL;DR该文章介绍了用于大型语言模型训练的塞尔维亚语（和塞尔维亚 - 克罗地亚语）的文本语料库，并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类，并详细说明其特点。此外，文章还介绍了三个新的语料库：一个新的塞尔维亚 - 克罗地亚语综合网络语料库，一个基于塞尔维亚所有大学国家博士论文库中的博士学位论文的高质量语料库，以及同一来源的摘要翻译平行语料库。将通过基于频率的文体测量方法评估新旧语料库的独特性，并对结果进行简要讨论。

Abstract

This paper will present textual corpora for serbian (and serbo-croatian), usable for the training of large →

textual corpora serbian serbo-croatian language models corpus analysis

发现论文，激发创造

塞尔维亚语的新语言模型

本文简要介绍了用于塞尔维亚语的基于 Transformer 的语言模型的发展历史，同时还提出了几个使用塞尔维亚语资源进行训练的文本生成和矢量化模型。在四个自然语言处理任务上比较了十个选择的塞尔维亚语矢量化模型，包括两个新的模型。本文分析了在每个选定任务上哪些模型是最好的，它们的大小和训练集大小如何影响这些任务的性能，并确定了为塞尔维亚语训练最佳语言模型的最优设置。

Feb, 2024

CLASSLA-web: 含有语言和体裁标注的南斯拉夫语言可比网页语料库

本文介绍了一套高度可比的斯拉夫南部语言空间中斯洛文尼亚、克罗地亚、波斯尼亚、黑山、塞尔维亚、马其顿和保加利亚的网络语料库，总计包含了来自 2600 万个文档的 130 亿个文本标记。这些语料库的可比性通过统一的爬取设置和相同的爬取和后处理技术得到保证，它们都经过了最先进的 CLASSLA-Stanza 语言处理管道的语言注释，并通过基于 Transformer 的多语言 X-GENRE 分类器增强了文档级别的体裁信息，从而进一步提高了语言注释和元数据的可比性。对这些语料库进行的体裁分析表明，七个语料库中的体裁分布相对一致，各语言社区的经济实力解释了最主要的体裁类别的变化。对比不同语料库中的体裁类别分布显示，来自较不发达国家的网络语料库主要由新闻文章构成，而来自经济更发达国家的网络语料库则新闻内容的比例较小，而推广和观点性文本的比例较大。

Mar, 2024

斯拉夫语跨语言命名实体语料库

该研究论文介绍了一个手动注释的语料库，包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类，以及命名实体的词形还原和链接。

Mar, 2024

塞尔维亚语自然语言处理的资源和方法调查

本文评述十二百万使用者的塞尔维亚语在自然语言处理中遇到的低语言资源和多屈折形式的困难，以及过去三十年来发展的从语料库到不同任务的标注，各种方法和模型。

Apr, 2023

克罗地亚新闻文章中引用、指代消解和情感标注：一项探索性研究

本文提供了一个克罗地亚语语料库，在 SETimes 新闻语料库中进行引语，指代关系解决和情感注释的注释，并分析了与英语的语言特定差异。生成的带引文特征注释的语料库可用于自然语言处理领域的多个任务。

Dec, 2022

从互联网自动创建低资源语言文本语料库：以瑞士德语为例

SwissCrawl 是目前最大的瑞士德语文本语料库之一，是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库，在自然语言处理方面非常重要。在实验评估中，我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容，我们的方法会持续不断地运行以增加语料库的文本。

Nov, 2019

AlbNews：用于阿尔巴尼亚语主题建模的标题语料库

本论文介绍了 AlbNews，这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合，可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超过了集成学习模型，并可作为未来实验的基准。

Feb, 2024

CroSentiNews2.0：新闻情感句子语料库

该研究提供了一个句子级情感数据集，覆盖了克罗地亚新闻领域，在已有的 3000 个注释文本的基础上，增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。

May, 2023

用于探索捷克语单词嵌入的新单词类比语料库

本文旨在探究最新的词嵌入方法对于捷克语的应用效果，对其进行了词类、语法和语义属性角度的分析，并在新语料库上使用了 Word2Vec 和 GloVe 算法进行了实验，实验结果表明该方法在捷克语的 NLP 领域中是有效的。

Aug, 2016

BERTić -- 用于波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语的 Transformer 语言模型

本文描述了一个在克罗地亚语、波斯尼亚语、塞尔维亚语和黑山语网络域爬取的 80 亿个令牌的 transformer 模型的预训练，并在词性标注、命名实体识别、地理位置预测和常识因果推理等任务上展示所有任务上的改进。此外，我们引入了 COPA-HR 项目，将可选可行替代品（COPA）数据集翻译成克罗地亚语以进行常识推理评估，并通过 HuggingFace 免费提供 BERTi'c 模型以及进一步的针对特定任务的微调。

Apr, 2021