指导细粒度宣传识别的话语结构
本文提出了一个新的任务:在文本中检测包含宣传技巧及其类型的所有片段,解决了以往检测宣传文本时金标准误差及解释难题。我们手动标注了 18 种宣传技巧的新闻文章片段集,并进行了适当的评估。此外,我们设计了一个多粒度神经网络,表现优于几个强的 BERT-based 基线。
Oct, 2019
本文介绍了一种注入 fine-grained propaganda 技术的声明式知识的方法,该方法通过利用一阶逻辑和自然语言表达的声明知识进行训练,以提高模型的准确性。通过在粗粒度和细粒度预测之间保持逻辑一致性来规范训练过程,同时利用字面定义每种宣传技术来获得类表示来规范模型参数。实验表明,我们的方法在 fine-grained propaganda 检测上取得了卓越的性能。
Apr, 2020
SemEval 2020 Task-11 aims to design automated systems for news propaganda detection, consisting of two sub-tasks, utilizing contextual embeddings and an ensemble of BERT and logistic regression classifiers with linguistic features to identify propaganda techniques and classify propagandist statements respectively.
May, 2020
本文提出了一种新的多标签多模态任务:检测特定类型的宣传技巧在网络迷因中的使用,并基于一个包含 22 种宣传技巧的标注数据集开展了实验,结果表明同时理解文本和图像是检测这些技巧的关键。
Aug, 2021
该研究论文描述了关于如何检测阿拉伯推特上的宣传技术的共享任务,该任务吸引了 63 个团队注册,11 个团队提交了系统描述论文。
Nov, 2022
本篇论文详细介绍我们系统 (MIC-CIS) 参加 2019 年细粒度宣传检测共享任务的结果与细节。为解决句子级别 (SLC) 和片段级别 (FLC) 宣传检测任务,我们针对不同的神经架构 (e.g., CNN, LSTM-CRF 和 BERT) 以及提取语言学 (e.g., 词性、命名实体、可读性、情感等)、版面和主题特征进行了探索。具体而言,我们设计了多粒度与多任务的神经架构来共同执行句子和片段级别宣传检测。此外,我们还研究了不同的集成方案,如多数投票、宽松投票等,以提高整个系统的性能。与其他参与系统相比,我们的提交在 FLC 和 SLC 任务中分别排名第 3 和第 4。
Sep, 2019
该研究调查了宣传语言及其风格特征,提出了 PPN 数据集,包括多源、多语言、多模态的新闻文章,从被专家机构确定为宣传来源的网站中提取。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识别注释者使用的线索,并将它们与机器分类进行比较,包括衡量言语模糊性和主观性的分析工具 VAGO、作为基准的 TF-IDF 以及四种不同的分类器:两种基于 RoBERTa 的模型、使用语法的 CATS 和结合句法和语义特征的 XGBoost。
Feb, 2024
使用 GPT-4 大型语言模型对包含 6 种其他语言的传媒行文进行细粒度的宣传技术检测,结果显示该模型在不同语种的跨度检测任务中遇到困难,相比于用于宣传检测的不同分类层次的模型微调后,GPT-4 仍然远远落后。
Feb, 2024
本文采用数据驱动方法研究推特上的政治信息传播、社群结构、和推手角色,发现推特政治信息的传播和用户的关联会形成高度政治派别结构,相对应的,节点中心度数据值得进一步关注。
May, 2020
该研究提出检测交替语言的宣传技术是一项具有挑战性的任务,重点关注于低资源语言,提出了一种新的 Fine-Tuning 策略,并在一些实验中进行了对比。
May, 2023