指导细粒度宣传识别的话语结构

EMNLPOct, 2023

Discourse Structures Guided Fine-grained Propaganda Identification

Yuanyuan Lei, Ruihong Huang

TL;DR该研究旨在通过在句子级和标记级别上识别政治新闻中的宣传内容，识别宣传在句子中嵌入因果关系或与附近句子形成对比的内容以及意见评价、推测和未来预期，进而建立两个教师模型识别附近句子之间的 PDTB 样式话语关系和新闻文章中句子的常见话语角色，通过使用教师预测的概率作为附加特征或在知识蒸馏框架中寻求指导来整合这两种类型的话语结构进行宣传识别，实验结果显示利用话语结构的指导可以显著提高宣传内容识别的精确度和召回率。

Abstract

propaganda is a form of deceptive narratives that instigate or mislead the public, usually with a political purpose. In this paper, we aim to identify propaganda in →

propaganda political news sentence-level token-level discourse structures

发现论文，激发创造

新闻文章中的宣传细致分析

本文提出了一个新的任务：在文本中检测包含宣传技巧及其类型的所有片段，解决了以往检测宣传文本时金标准误差及解释难题。我们手动标注了 18 种宣传技巧的新闻文章片段集，并进行了适当的评估。此外，我们设计了一个多粒度神经网络，表现优于几个强的 BERT-based 基线。

Oct, 2019

利用文本和一阶逻辑中的声明性知识进行细粒度宣传检测

本文介绍了一种注入 fine-grained propaganda 技术的声明式知识的方法，该方法通过利用一阶逻辑和自然语言表达的声明知识进行训练，以提高模型的准确性。通过在粗粒度和细粒度预测之间保持逻辑一致性来规范训练过程，同时利用字面定义每种宣传技术来获得类表示来规范模型参数。实验表明，我们的方法在 fine-grained propaganda 检测上取得了卓越的性能。

Apr, 2020

SemEval-2020 任务 11 中的 BPGC：基于多粒度知识共享和语言特征的集成学习在新闻文章中探测宣传

SemEval 2020 Task-11 aims to design automated systems for news propaganda detection, consisting of two sub-tasks, utilizing contextual embeddings and an ensemble of BERT and logistic regression classifiers with linguistic features to identify propaganda techniques and classify propagandist statements respectively.

May, 2020

探测 memes 中的宣传技术

本文提出了一种新的多标签多模态任务：检测特定类型的宣传技巧在网络迷因中的使用，并基于一个包含 22 种宣传技巧的标注数据集开展了实验，结果表明同时理解文本和图像是检测这些技巧的关键。

Aug, 2021

2022 年 WANLP 共享任务：阿拉伯语宣传检测概述

该研究论文描述了关于如何检测阿拉伯推特上的宣传技术的共享任务，该任务吸引了 63 个团队注册，11 个团队提交了系统描述论文。

Nov, 2022

新闻中细粒度宣传检测的神经网络结构

本篇论文详细介绍我们系统 (MIC-CIS) 参加 2019 年细粒度宣传检测共享任务的结果与细节。为解决句子级别 (SLC) 和片段级别 (FLC) 宣传检测任务，我们针对不同的神经架构 (e.g., CNN, LSTM-CRF 和 BERT) 以及提取语言学 (e.g., 词性、命名实体、可读性、情感等)、版面和主题特征进行了探索。具体而言，我们设计了多粒度与多任务的神经架构来共同执行句子和片段级别宣传检测。此外，我们还研究了不同的集成方案，如多数投票、宽松投票等，以提高整个系统的性能。与其他参与系统相比，我们的提交在 FLC 和 SLC 任务中分别排名第 3 和第 4。

Sep, 2019

揭露宣传：通过比较人类标注和机器分类的文体线索进行分析

该研究调查了宣传语言及其风格特征，提出了 PPN 数据集，包括多源、多语言、多模态的新闻文章，从被专家机构确定为宣传来源的网站中提取。通过人工注释实验，结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术，用于识别注释者使用的线索，并将它们与机器分类进行比较，包括衡量言语模糊性和主观性的分析工具 VAGO、作为基准的 TF-IDF 以及四种不同的分类器：两种基于 RoBERTa 的模型、使用语法的 CATS 和结合句法和语义特征的 XGBoost。

Feb, 2024

GPT-4 能否识别宣传报道？新闻文章中宣传内容的注解和检测

使用 GPT-4 大型语言模型对包含 6 种其他语言的传媒行文进行细粒度的宣传技术检测，结果显示该模型在不同语种的跨度检测任务中遇到困难，相比于用于宣传检测的不同分类层次的模型微调后，GPT-4 仍然远远落后。

Feb, 2024

在 Twitter 上表征宣传网络：案例研究

本文采用数据驱动方法研究推特上的政治信息传播、社群结构、和推手角色，发现推特政治信息的传播和用户的关联会形成高度政治派别结构，相对应的，节点中心度数据值得进一步关注。

May, 2020

检测混合语言社交媒体文本中的宣传技术

该研究提出检测交替语言的宣传技术是一项具有挑战性的任务，重点关注于低资源语言，提出了一种新的 Fine-Tuning 策略，并在一些实验中进行了对比。

May, 2023