AlbMoRe: 一份用于阿尔巴尼亚语情感分析的电影评论语料库

Jun, 2023

AlbMoRe: 一份用于阿尔巴尼亚语情感分析的电影评论语料库

AlbMoRe: A Corpus of Movie Reviews for Sentiment Analysis in Albanian

Erion Çano

TL;DR该论文介绍了阿尔巴尼亚语情感分析语料库 AlbMoRe，其中包含 800 个被标记为正面或负面的电影评论文本，并报告了使用这些样本训练的传统机器学习分类器的初步结果，可作为未来研究实验的比较基线。

Abstract

Lack of available resources such as text corpora for low-resource languages seriously hinders research on natural language processing and

text corpora low-resource languages natural language processing computational linguistics sentiment analysis

发现论文，激发创造

AlbNER：一个阿尔巴尼亚语命名实体识别语料库

资源稀缺，如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER，一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体在 AlbNER 数据上进行微调和测试的初步结果表明，模型大小对 NER 性能有轻微影响，而语言转移具有显著影响。AlbNER 语料库和这些获得的结果应作为未来实验的基线。

Sep, 2023

AlbNews：用于阿尔巴尼亚语主题建模的标题语料库

本论文介绍了 AlbNews，这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合，可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超过了集成学习模型，并可作为未来实验的基准。

Feb, 2024

yosm: 一份新的针对电影评论的约鲁巴情感语料库

本研究主要关注于探索使用预先训练的语言模型 mBERT 和 AfriBERTa 进行情感分析，以研究那些处理不足的数据集和语言架构上未完成的非洲语言如 Yoruba 的影片评论。

Apr, 2022

CroSentiNews2.0：新闻情感句子语料库

该研究提供了一个句子级情感数据集，覆盖了克罗地亚新闻领域，在已有的 3000 个注释文本的基础上，增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。

May, 2023

SentiALG：阿尔及利亚情感分析自动语料标注

本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法，该语料库基于自动构建的阿尔及利亚情感词典，涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据，并且取得了较好的实验结果。

Aug, 2018

推特情感分析：马其顿语

开发和评估了一种适用于 Macedonian 的 Twitter 情感分析系统，包括语料库和大规模情感词典，并在实验中表现出 92.16 的 F1 分数，这是与英语最好结果相当的极强表现。

Sep, 2021

MultiBooked: 基于方面级情感分类的巴斯克语和加泰罗尼亚语酒店评论语料库

本研究针对资源缺乏的巴斯克语和加泰罗尼亚语，提供了两个数据集，并提供了高质量的标注和基准，希望对研究这些语言的学者有所帮助。

Mar, 2018

大规模多语种情感数据集和多方面情感分类基准

该研究提供了一个由 79 个数据集组成的开放性跨语言语料库，可用于培训情感模型，同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。

Jun, 2023

克罗地亚电影评论数据集（Cro-FiReDa）：电影评论的情感标注数据集

Cro-FiReDa 是一个针对克罗地亚电影评论领域的情感注释数据集，含有超过 10,000 个句子，并在句子级别上进行了注释。除了介绍总体注释过程外，该论文还提出了基于 Transformer 微调方法的基准结果。

May, 2023

建立巴西葡萄牙语推特情感语料库

本文介绍了 TweetSentBR，即一种人工注释的，用于情感语料库的巴西葡萄牙语语料库，用于在电视节目领域的 15.000 个句子上进行分类，通过三种机器学习方法进行了基线实验并获得了良好的分类准确度。

Dec, 2017