克罗地亚新闻文章中引用、指代消解和情感标注:一项探索性研究
该研究提供了一个句子级情感数据集,覆盖了克罗地亚新闻领域,在已有的 3000 个注释文本的基础上,增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。
May, 2023
本研究使用零样本和小样本学习进行跨语言情感分析。采用三种语言的 BERT-based 模型进行语种间的情感分类,提出了一种简单多任务模型。通过单任务和多任务实验的零样本和小样本场景对克罗地亚言和斯洛文尼亚情感分析进行评估。
Dec, 2022
该文章介绍了用于大型语言模型训练的塞尔维亚语(和塞尔维亚 - 克罗地亚语)的文本语料库,并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类,并详细说明其特点。此外,文章还介绍了三个新的语料库:一个新的塞尔维亚 - 克罗地亚语综合网络语料库,一个基于塞尔维亚所有大学国家博士论文库中的博士学位论文的高质量语料库,以及同一来源的摘要翻译平行语料库。将通过基于频率的文体测量方法评估新旧语料库的独特性,并对结果进行简要讨论。
May, 2024
该研究论文介绍了一个手动注释的语料库,包含六种斯拉夫语言的命名实体。该研究使用基于 Transformer 的神经网络架构和预训练的多语言模型进行命名实体识别和分类,以及命名实体的词形还原和链接。
Mar, 2024
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。
May, 2023
通过 CZEch~NEws~Classification~dataset 对 Czech 自然语言处理进行评估,发现语言特定的预训练编码器分析优于可选的大规模生成语言模型,并定义了四个分类任务:新闻来源、新闻类别、作者性别推断和星期几。
Jul, 2023
基于 CorefUD 数据集和通用形态句法和共指注释,我们通过研究核心指代在不同语言、不同语体和不同层次上的特点,对 SotA 系统无法解决的最具挑战性情况进行错误分析,然后从通用形态句法注释中提取特征,并将这些特征集成到基线系统中,结果显示我们的最佳配置特征提高了 0.9% 的 F1 得分。
Oct, 2023
为分析包括在线新闻文章在内的丰富数据中的人类交流,有效提取说话者、言论内容、受众等是至关重要的。然而,缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题,我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集,用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构,提供了经过策划的高质量注释,跨越 1000 个文档(250,000 个标记),使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么,还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构,描述了数据集的创建过程,并提供了定量分析。此外,我们描述了适用的评估指标,应用了两个现有的引用归属系统,对它们的结果进行讨论来评估我们数据集的实用性,并概述了在下游任务中使用我们数据集的用例。
Apr, 2024
Cro-FiReDa 是一个针对克罗地亚电影评论领域的情感注释数据集,含有超过 10,000 个句子,并在句子级别上进行了注释。除了介绍总体注释过程外,该论文还提出了基于 Transformer 微调方法的基准结果。
May, 2023