ACLFeb, 2024

揭露宣传:通过比较人类标注和机器分类的文体线索进行分析

TL;DR该研究调查了宣传语言及其风格特征,提出了 PPN 数据集,包括多源、多语言、多模态的新闻文章,从被专家机构确定为宣传来源的网站中提取。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识别注释者使用的线索,并将它们与机器分类进行比较,包括衡量言语模糊性和主观性的分析工具 VAGO、作为基准的 TF-IDF 以及四种不同的分类器:两种基于 RoBERTa 的模型、使用语法的 CATS 和结合句法和语义特征的 XGBoost。