资源稀缺,如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER,一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明,模型大小对 NER 性能有轻微影响,而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。
Sep, 2023
本论文介绍了 AlbNews,这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合,可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超过了集成学习模型,并可作为未来实验的基准。
Feb, 2024
本研究主要关注于探索使用预先训练的语言模型 mBERT 和 AfriBERTa 进行情感分析,以研究那些处理不足的数据集和语言架构上未完成的非洲语言如 Yoruba 的影片评论。
Apr, 2022
该研究提供了一个句子级情感数据集,覆盖了克罗地亚新闻领域,在已有的 3000 个注释文本的基础上,增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。
May, 2023
本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法,该语料库基于自动构建的阿尔及利亚情感词典,涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据,并且取得了较好的实验结果。
Aug, 2018
开发和评估了一种适用于 Macedonian 的 Twitter 情感分析系统,包括语料库和大规模情感词典,并在实验中表现出 92.16 的 F1 分数,这是与英语最好结果相当的极强表现。
Sep, 2021
本研究针对资源缺乏的巴斯克语和加泰罗尼亚语,提供了两个数据集,并提供了高质量的标注和基准,希望对研究这些语言的学者有所帮助。
Mar, 2018
该研究提供了一个由 79 个数据集组成的开放性跨语言语料库,可用于培训情感模型,同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。
Jun, 2023
Cro-FiReDa 是一个针对克罗地亚电影评论领域的情感注释数据集,含有超过 10,000 个句子,并在句子级别上进行了注释。除了介绍总体注释过程外,该论文还提出了基于 Transformer 微调方法的基准结果。
本文介绍了 TweetSentBR,即一种人工注释的,用于情感语料库的巴西葡萄牙语语料库,用于在电视节目领域的 15.000 个句子上进行分类,通过三种机器学习方法进行了基线实验并获得了良好的分类准确度。
Dec, 2017