特定主题情感分析有助于识别政治意识形态
本文研究了训练数据中的政治意识形态偏见对自然语言处理模型的影响, 发现大而复杂的模型容易从人选择的输入中传播偏差,从而导致检索准确性的恶化。最后,我们提出一种方法来减轻这种偏差,即学习一个对政治意识形态不变但仍然可以判断主题相关性的文本表示。
Nov, 2020
这项研究介绍了主题度量,从提取的主题转换而来的虚拟变量,作为情绪度量的替代和补充,用于态度分类;通过使用 Bestvater 和 Monroe(2023)确定的三个数据集,本研究展示了 BERTopic 在提取连贯主题方面的熟练程度以及主题度量在态度分类中的有效性。实验结果表明,与传统方法(如 Dirichlet Allocation(LDA)和 Non-negative Matrix Factorization(NMF))相比,BERTopic 将连贯性得分提高了 17.07%至 54.20%,这些方法在早期政治学研究中很常见。此外,我们的结果表明,主题度量在态度分类中优于情绪度量,提高了高达 18.95%的性能。我们的发现表明,主题度量对于文本和语料库中态度和情绪相关性较弱的富有上下文的文本特别有效。情绪和主题度量的组合在大多数情况下可以实现最佳性能,并且可以进一步解决仅依赖情绪以及主题度量低一致性得分的局限性。
Oct, 2023
本文通过针对 2019 年阿根廷总统大选主要媒体发布的 1,976 个题名候选人的情感数据集,利用预训练的语言模型和最先进的分类算法,解决了特定领域新闻标题情感分析的问题,并公开了数据和模型。
Aug, 2022
研究新闻媒体的意识形态倾向与分化对于推进当代政治的理解至关重要。本文提出一种新颖而细粒度的意识形态研究方法,利用在左右方向上的立场来分析问题,并介绍了第一个描绘意识形态多维度构建并由政治科学家和语言学家进行标注的新闻文章文本数据集。通过控制作者立场,我们的方法可以量化地测量并研究多维度的意识形态距离与变化。本文进一步提出了基于模型的意识形态预测,这与基于立场的检测是一个挑战性的研究任务。
Jun, 2021
利用 LLM 的潜在知识,本文提出了一种分析个别国会代表意识形态立场的方法,通过使用经过微调的 BERT 分类器从代表的演讲中提取基于意见的句子,并将每个代表的平均 BERT 嵌入投影到一对参考种子上,这些参考种子是在特定话题上具有相对立观点的已知代表,或者使用 OpenAI 的 GPT-4 模型生成的句子。
May, 2024
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的 LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
本文介绍了使用基于意识形态的预训练目标的预训练语言模型进行意识形态预测的新方法,并介绍了一个大规模数据集 POLITICS,该数据集包含超过 3.6M 篇政治新闻文章,并展示该模型在意识形态预测和立场检测任务上的性能优越性。
May, 2022
本文探讨新闻文章中的政治意识形态或偏见的预测任务,提出了一个具有挑战性的实验设置并收集了大量的数据集,在建模方面使用了敌对媒体适应和三元组损失等策略,并在文章级别上加入了源背景信息,实验结果表明这种方法在这种具有挑战性的情况下比使用先进的预先训练转换器有相当大的改进。
Oct, 2020
通过使用语言模型分析美国政治体系中的政治极化,我们提供了对候选人立场的分析信息,以帮助选民了解其在经济、医疗保健、教育和其他社会问题上的观点,并进一步分析候选人的数据集和使用 “Longformer” 这样更强大的方式,找到每个候选人在其政治观点和背景上的最近邻。
Jan, 2023
通过使用新闻媒体偏见和帖子内容来标记社交媒体帖子的两种启发式方法,以及与随机抽取的人工标注数据集进行比较,我们展示了当前机器学习模型在预测社交媒体帖子的政治倾向方面的改进性能,采用传统的监督学习和少样本学习设置。
Nov, 2023