2024年新浪在FigNews上的多语言数据集带有偏见和宣传注释
该研究提出了一种用于事件因果关系注释的注释模式,为此构建了一个名为Causal News Corpus(CNC)的语料库,并使用神经网络在测试集上获得了81.20% F1得分,CNC是对外部语料库可转移的,也是文本挖掘研究人员的有价值资源。
Apr, 2022
本研究使用新闻文章和Telegram新闻频道在乌克兰、俄罗斯、罗马尼亚和英语中分析了战争第一个月期间媒体对公众舆论的影响和反映,并提出并比较了两种基于Transformer和语言特征的多语言自动化亲俄罗斯宣传识别方法,分析了它们的优缺点,适用于新的流派和语言,并对其用于内容管理的道德问题进行了分析,旨在为针对当前冲突量身定制的管理工具的进一步发展奠定基础。
Jan, 2023
本文通过分析 Facebook 上代表性的 far-right Hindutva pages 数据集来解决 Social Media Platforms 上 toxic speech 和 hateful content 的问题,使用 state-of-the-art 的 XLM-T multilingual transformer-based language models 对文本内容进行情感和 hate speech 分析,并讨论预训练语言模型的性能和局限性。
Jan, 2023
构建了一个进行反犹太主义言论自动检测的标注过的数据集,该数据集通过有关关键词,并给予标注人员对一个常用定义的反犹太主义进行刻意强制应用来涵盖广泛的讨论主题,并包括 1250 条符合国际大屠杀纪念联盟关于反犹太主义的定义,并且未被错误标记的推文,该数据集是针对 Twitter 在 2019 年 1 月至 2021 年 12 月期间的英文推文。
Apr, 2023
该研究提出检测交替语言的宣传技术是一项具有挑战性的任务,重点关注于低资源语言,提出了一种新的Fine-Tuning策略,并在一些实验中进行了对比。
May, 2023
本文展示了一个新颖的数据集,该数据集收集并处理了全球各地新闻或媒体公司在社交媒体上发布的推文,旨在帮助研究人员从多个角度研究有关俄乌冲突的全球议论,包括涉及的主体,持有的态度,原始出处,以及事件中不同概念的表现。
Jun, 2023
该研究调查了宣传语言及其风格特征,提出了PPN数据集,包括多源、多语言、多模态的新闻文章,从被专家机构确定为宣传来源的网站中提取。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识别注释者使用的线索,并将它们与机器分类进行比较,包括衡量言语模糊性和主观性的分析工具VAGO、作为基准的TF-IDF以及四种不同的分类器:两种基于RoBERTa的模型、使用语法的CATS和结合句法和语义特征的XGBoost。
Feb, 2024
使用 GPT-4 大型语言模型对包含6种其他语言的传媒行文进行细粒度的宣传技术检测,结果显示该模型在不同语种的跨度检测任务中遇到困难,相比于用于宣传检测的不同分类层次的模型微调后,GPT-4 仍然远远落后。
Feb, 2024
通过将人类标注的少量示例与GPT相结合,我们提出了一种有效的扩展标注过程的策略,从而优化金融成本和分类准确性,达到与当时的最佳模型GPT-4相当的结果,并且成本只有其10分之一。
Jul, 2024
本研究解决多语言新闻帖子中的偏见和宣传标注问题,特别关注以色列对加沙战争初期的案例。通过创建能够分析多样叙事的框架,研究促进了主观任务标注指南的开发和团队之间的合作。研究的关键发现包括为该领域提供了丰富的数据点和跨语言协作的潜在影响。
Jul, 2024