一个新的韩文文本分类基准,用于识别在线报纸中的政治意图
本文提出了一种基于推文训练的两步分类方案,用于检测长文本中的政治偏见。该方案包括通过推特数据训练中性检测器,用于去除文章中的中性句子以实现意见集中,并提高了文章的预测准确性。
Sep, 2019
我们引入了一个来自韩国著名 SNS 平台的全面、大规模数据集,该数据集提供了对文本样本的三种注释:(1)偏好,(2)亵渎,和(3)九种偏见类型,实现了用户生成文本的多任务学习的同时分类。通过利用最先进的基于 BERT 的语言模型,我们的方法在各种度量标准下超越了人类水平的准确性。除了学术贡献,我们的工作可以为实际的仇恨言论和偏见减轻提供实际解决方案,直接有助于提升在线社区的健康。我们的工作为未来旨在提高在线话语质量和促进社会福祉的研究奠定了坚实的基础。所有源代码和数据集都可以在此 https 链接上公开访问。
Oct, 2023
本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集,利用预训练的语言模型和最先进的分类算法,解决了特定领域新闻标题情感分析的问题,并公开了数据和模型。
Aug, 2022
本文探讨新闻文章中的政治意识形态或偏见的预测任务,提出了一个具有挑战性的实验设置并收集了大量的数据集,在建模方面使用了敌对媒体适应和三元组损失等策略,并在文章级别上加入了源背景信息,实验结果表明这种方法在这种具有挑战性的情况下比使用先进的预先训练转换器有相当大的改进。
Oct, 2020
利用 “翻译 - 检索 - 翻译” 策略引入推理通识知识,然后将其整合到多语言预训练语言模型中以预测政治极性,证明我们的框架不受所使用的模型的影响,并具有潜力为新闻从业者、社会科学家、新闻制作人员和消费者带来好处。
Dec, 2022
本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。本文对社会科学的多个领域做出了重要贡献,并将其与计算机科学和计算语言学相结合。最后,它建立了一种更可靠的政治文本情感分析方法,使学者能够使用标准化的工具和技术,从比较的视角研究政治情感。
Sep, 2023
本文提出了一种基于关注机制的多角度模型,利用文本、标题、内容以及链接结构等多种视角识别新闻文章所展现出的政治意识形态,实验证明该模型在自然语言处理的表示学习和网络科学中的进展方面,比现有的基线模型在 F1 得分上提高了 10 个百分点。
Sep, 2018
本文介绍了使用基于意识形态的预训练目标的预训练语言模型进行意识形态预测的新方法,并介绍了一个大规模数据集 POLITICS,该数据集包含超过 3.6M 篇政治新闻文章,并展示该模型在意识形态预测和立场检测任务上的性能优越性。
May, 2022
利用可靠的外部数据资源学习新闻文章的公正表示,提出了一种知识注入的深度学习模型,旨在预测新闻文章的政治倾向,解决了现有学习模型在模型训练中受到新闻发布者的政治偏见影响的问题,从而消除了算法政治偏见,并在准确性方面优于基线方法,可达到 73% 的准确率。
Sep, 2023
使用真实新闻机构的评级,我们创建了一份多语言新闻语料库,其中包括粗略的立场注释(左翼和右翼)以及自动提取的主题注释。我们展示了使用这些数据训练的分类器能够识别英语、德语、西班牙语和加泰罗尼亚语中大部分未见过的报纸的编辑立场。我们随后将这些分类器应用于 ChatGPT 和 Bard 在四种语言中撰写的 101 篇类似报纸文章,并观察到,类似传统报纸,ChatGPT 的编辑立场会随着时间而演变,并且作为一个数据驱动的系统,生成的文章在不同语言中的立场也有所不同。
Oct, 2023