MOROCO:摩尔多瓦和罗马尼亚方言语料库
罗马尼亚方言识别是语音处理和语言技术中的关键任务,但研究主要集中在广泛使用的语言上,缺乏针对低资源语言(如罗马尼亚语)的研究。为填补这一研究空白,我们首次引入了罗马尼亚语方言识别的 RoDia 数据集,包含来自罗马尼亚五个不同地区的样本,并且包含了 2 小时的人工标注语音数据。同时,我们提供了一组竞争模型作为未来研究的基准。在该数据集上,最高得分的模型在宏观 F1 得分上达到 59.83%,在微观 F1 得分上达到 62.08%,显示该任务的挑战性。因此,我们相信 RoDia 是一个有价值的资源,将促进针对罗马尼亚方言识别挑战的研究。我们在此链接上公开发布我们的数据集和代码。
Sep, 2023
介绍了 HistNERo,第一个用于历史报纸中的罗马尼亚命名实体识别(NER)的罗马尼亚语语料库,含 323k 个标记文本,覆盖了 1817 年至 1990 年的超过一半时间段。实验结果显示,最佳模型在此语料库上的严格 F1 分数达到了 55.69%,通过减少地区之间的差异并使用一种新颖的领域自适应技术,我们将其提高到了 66.80%,相对增益超过 10%。
Apr, 2024
介绍了适用于罗马尼亚语的 RONEC 命名实体语料库,该语料库包含 26000 多个实体,在约 5000 个带注释的句子中属于 16 个不同的类别,是罗马尼亚语领域指定的第一个命名实体识别语料库之一,可用于 BRAT 和 CoNLL-U Plus 格式,且可在 github.com/dumitrescustefan/ronec 上自由使用和扩展。
Sep, 2019
该研究论文介绍了一个手动注释的语料库,包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类,以及命名实体的词形还原和链接。
Mar, 2024
自动语义变化方法旨在通过分析词语在历时语料库中的使用来识别其含义随时间的变化。本文分析了在真实的英语和罗马尼亚数据集上创建静态和上下文词嵌入模型(Word2Vec 和 ELMo)的不同策略。通过对英语数据集(SEMEVAL-CCOHA)进行评估,并针对罗马尼亚数据集进行实验来确定模型的性能,并突出该低资源语言中语义变化的不同方面,如含义的获取与丧失。实验结果表明,在选择模型和计算语义变化得分的距离方面,取决于语料库,这是最重要的因素。
Aug, 2023
该文章介绍了用于大型语言模型训练的塞尔维亚语(和塞尔维亚 - 克罗地亚语)的文本语料库,并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类,并详细说明其特点。此外,文章还介绍了三个新的语料库:一个新的塞尔维亚 - 克罗地亚语综合网络语料库,一个基于塞尔维亚所有大学国家博士论文库中的博士学位论文的高质量语料库,以及同一来源的摘要翻译平行语料库。将通过基于频率的文体测量方法评估新旧语料库的独特性,并对结果进行简要讨论。
May, 2024
我们是第一个收集和翻译大量文本、指令和基准,并训练、评估和发布专门针对罗马尼亚语的开源大型语言模型,通过在学术基准、手动翻译的 MT-Bench 和专业构建的历史、文化和社会基准测试中获得卓越的结果,我们公开发布所有资源以支持和鼓励罗马尼亚语大型语言模型的研究,并同时创建适用于其他低资源语言的可推广的方法。
Jun, 2024
本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库,并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。
Feb, 2020
本文介绍一个收集于比利时、加拿大、法国和瑞士的公共新闻网站上的包含 413,522 个法语文本样本的新颖语料库。该文章通过对不同的新闻网站检索不同的关键词,消除了主题、写作风格和发布来源等潜在偏见,从而建立了一个法语跨领域方言识别任务;作者也通过四个竞争基线、基于微调的 CamemBERT 模型、基于微调 CamemBERT 特征的 XGBoost、基于微调 CamemBERT 特征的 SVM 分类器和基于单词 n-grams 的 SVM 进行了实验;最后,作者还分析了 CamemBERT 学到的最有区分度的特征。
Dec, 2022