斯拉夫语跨语言命名实体语料库

COLINGMar, 2024

Cross-lingual Named Entity Corpus for Slavic Languages

Jakub Piskorski, Michał Marcińczuk, Roman Yangarber

TL;DR该研究论文介绍了一个手动注释的语料库，包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类，以及命名实体的词形还原和链接。

Abstract

This paper presents a corpus manually annotated with named entities for six slavic languages - Bulgarian, Czech, Polish, Slovenian, Russia

corpus named entities slavic languages annotation neural network

发现论文，激发创造

WikiGoldSK：斯洛伐克命名实体识别的注释数据集、基线和少样本学习实验

本研究旨在解决某些语种尚未存在高质量手动标注数据集的现状，并通过引入 WikiGoldSK 数据集，评估了最先进的多语言预训练语言模型在斯洛伐克语上的效果，并与现有的银标准斯洛伐克 NER 数据集进行了比较。我们还进行了几个示范性实验，并显示使用一个银标准数据集进行训练可以获得更好的结果。最终，我们公开了数据集、代码和经过训练的模型，并采用可许可的许可条款。

Apr, 2023

乌克兰文本分类：跨语言知识迁移方法的探索

我们利用 NLP 的最新进展，探索跨语言知识转移方法，避免手动数据整理，以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题，并在三个文本分类任务上进行测试，提供最佳设置的 “配方”。

Apr, 2024

塞尔维亚语言建模的新文本语料库

该文章介绍了用于大型语言模型训练的塞尔维亚语（和塞尔维亚 - 克罗地亚语）的文本语料库，并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类，并详细说明其特点。此外，文章还介绍了三个新的语料库：一个新的塞尔维亚 - 克罗地亚语综合网络语料库，一个基于塞尔维亚所有大学国家博士论文库中的博士学位论文的高质量语料库，以及同一来源的摘要翻译平行语料库。将通过基于频率的文体测量方法评估新旧语料库的独特性，并对结果进行简要讨论。

May, 2024

跨语言情感分析的多任务学习

本研究使用零样本和小样本学习进行跨语言情感分析。采用三种语言的 BERT-based 模型进行语种间的情感分类，提出了一种简单多任务模型。通过单任务和多任务实验的零样本和小样本场景对克罗地亚言和斯洛文尼亚情感分析进行评估。

Dec, 2022

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

八种语言多语言文档分类语料库

本篇研究提出了一种新的 Reuters 子语料库，其针对 8 种语言具有平衡的类先验分布，旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线，并促进该重要领域的研究。

May, 2018

跨语言命名实体识别中的实体投影机器翻译

利用机器翻译提升跨语言命名实体识别中的注释映射技术并得到优越的实验结果。

Aug, 2019

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

用于分类捷克新闻文本的数据集和强大基准线

通过 CZEch~NEws~Classification~dataset 对 Czech 自然语言处理进行评估，发现语言特定的预训练编码器分析优于可选的大规模生成语言模型，并定义了四个分类任务：新闻来源、新闻类别、作者性别推断和星期几。

Jul, 2023

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018