英文新闻文章句子级主观性检测语料库
利用来自瑞士选举候选人的评论,构建了一个多语言立场检测数据集,包含3种语言的67,000条评论,预先加入自然问题代表目标,并用此训练出一种适用于所有政治问题的单一模型,使用多语言BERT的基线结果表明,该方法在零样本的情况下,进行跨语言和跨目标的转移效果相对成功。
Mar, 2020
本文旨在研究大型语言模型在对于语言数据集难以获得的语言,如形态复杂、资源较少的语言中进行自动立场检测的适用性,同时探索了 ChatGPT 作为一种全零样本分类器的可行性,结果表明 ChatGPT 的性能可与有监督学习相当。最佳模型的应用还可用于研究爱沙尼亚主流新闻来源和右翼民粹主义新闻来源在七年间的历时趋势,并探讨立场变更与现实事件的对应关系,这为新闻分析和媒体监测提供了一个更为简单和省钱的文本分类任务的替代方案。
May, 2023
我们使用GPT-3模型和基于新闻透视的主观性检查表的不同样式提示生成额外的训练材料,通过fine-tune语言特定的Transformer模型来解决任务中的类别不平衡问题,并证明不同主观风格在英语、德语和土耳其语的实验中都有效。此外,我们观察到在土耳其语和英语中,基于样式的过采样比释义更好。最后,当在非英语语言中生成基于样式的文本时,GPT-3模型有时会产生平庸的结果。
Jul, 2023
社交网络的广泛使用导致互联网上存在主观、误导甚至虚假信息。因此,主观性检测可以在确保信息的客观性和质量方面发挥重要作用。本文介绍了Gpachov团队在CLEF-2023 CheckThat!实验室任务2中构建的解决方案,该解决方案涉及三个不同的研究方向,采用了微调句子嵌入编码器模型和降维、样本高效少样本学习模型以及多语言数据集上微调多语言转换器等方法,并通过简单多数投票集成的方式融合三种方法,在测试集上达到0.77的宏F1,并在英语子任务上获得第二名。
Sep, 2023
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的LLM(语言模型)用于政治科学应用,并在27个欧洲议会的会议记录中进行了1.72亿专业领域词汇的预训练。通过实验证明,LLM在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
使用真实新闻机构的评级,我们创建了一份多语言新闻语料库,其中包括粗略的立场注释(左翼和右翼)以及自动提取的主题注释。我们展示了使用这些数据训练的分类器能够识别英语、德语、西班牙语和加泰罗尼亚语中大部分未见过的报纸的编辑立场。我们随后将这些分类器应用于ChatGPT和Bard在四种语言中撰写的101篇类似报纸文章,并观察到,类似传统报纸,ChatGPT的编辑立场会随着时间而演变,并且作为一个数据驱动的系统,生成的文章在不同语言中的立场也有所不同。
Oct, 2023
本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集,包括约3.6K个手动注释的句子,并基于GPT-4o提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于LLM的微调,并进行了数据集、注释过程以及广泛基准测试结果的深入分析,包括预训练语言模型(PLMs)和LLMs。我们的分析表明,注释者在注释过程的开始阶段受到其政治、文化和宗教背景的强烈影响。实验结果表明,具有上下文学习的LLMs表现更好。我们旨在向社区发布该数据集和资源。
Jun, 2024
本研究对二分类任务进行了探讨,以确定一个文本序列(句子或段落)是否主观或客观。研究涵盖了五种语言:阿拉伯语、保加利亚语、英语、德语和意大利语,以及跨语言类别。我们的方法包括了几个关键技术:通过词性标注对数据进行预处理、识别问号和应用注意力掩码。我们在我们的数据集上对情感基础的Transformer模型'MarieAngeA13/Sentiment-Analysis-BERT'进行了微调。鉴于客观数据较多的不平衡情况,我们实现了一种自定义分类器,给予客观数据更大的权重。此外,我们将非英语数据翻译成英语,以保持数据集的一致性。我们的模型取得了显著的结果,在跨语言数据集(Macro F1=0.7121)和德语(Macro F1=0.7908)方面获得了最高分。在阿拉伯语(Macro F1=0.4908)和保加利亚语(Macro F1=0.7169)方面排名第二,意大利语(Macro F1=0.7430)排名第三,在英语(Macro F1=0.6893)方面排名第九。
Jul, 2024