大型语言模型用于多标签宣传检测

Oct, 2022

大型语言模型用于多标签宣传检测

Large Language Models for Multi-label Propaganda Detection

PDF

Tanmay Chavan, Aditya Kane

TL;DR本研究通过提出的五种模型集成方法，针对包含 21 种宣传技巧的多标签文本分类任务有效地识别互联网宣传。最终在 WANLP 2022 共享任务中获得 59.73% 的微型 F1 分数，并进一步提出了未来的研究方向。

Abstract

The spread of propaganda through the internet has increased drastically over the past years. Lately, propaganda →

propaganda internet detection multi-label models

发现论文，激发创造

大型语言模型用于宣传检测

探测在数字化社会中广告宣传的普及给社会和真相的传播带来了挑战，通过 NLP 在文本中检测广告宣传是具有挑战性的，我们研究了现代大型语言模型（LLMs）如 GPT-3 和 GPT-4 在广告宣传检测中的有效性，并对使用 SemEval-2020 任务 11 数据集进行了实验，该数据集的新闻文章被标记为 14 种广告宣传技术的多标签分类问题，使用了五种不同的 GPT-3 和 GPT-4 变体，其中包括不同模型之间的各种提示工程和微调策略，通过评估 $F1$ 分数，$Precision$ 和 $Recall$ 等指标来评估模型的性能，并将结果与使用 RoBERTa 的当前最先进方法进行比较，我们的研究结果表明 GPT-4 达到了与当前最先进方法相当的结果，此外，本研究分析了 LLMs 在复杂任务如广告宣传检测中的潜力和挑战。

Oct, 2023

大型语言模型的宣传划分注释

使用大型语言模型（如 GPT-4）作为标注员，通过提供更多信息来改善注释一致性和性能，从而进行检测宣传性文本片段的研究。

Nov, 2023

SemEval-2020 任务 11 中的 BPGC：基于多粒度知识共享和语言特征的集成学习在新闻文章中探测宣传

SemEval 2020 Task-11 aims to design automated systems for news propaganda detection, consisting of two sub-tasks, utilizing contextual embeddings and an ensemble of BERT and logistic regression classifiers with linguistic features to identify propaganda techniques and classify propagandist statements respectively.

May, 2020

层次多实例多标签学习在检测宣传技术中的应用

本文提出了一种基于 RoBERTa 的 Multi-Instance Multi-Label（MIML）模型，以同时分类文章中的所有内容片段，考虑了标签之间的层级关系，取得了领先的分类效果。

May, 2023

IITD 在 WANLP 2022 共享任务中：用于宣传检测的多语言多粒度网络

使用 XLM-R 模型预测给定推文中每个宣传技术的概率，运用多粒度神经网络与 mBERT 编码器，基于大规模阿拉伯语数据集进行多标签分类及序列标注任务，该方法在 WANLP'2022 的两项子任务中获得第二名。

Oct, 2022

GPT-4 能否识别宣传报道？新闻文章中宣传内容的注解和检测

使用 GPT-4 大型语言模型对包含 6 种其他语言的传媒行文进行细粒度的宣传技术检测，结果显示该模型在不同语种的跨度检测任务中遇到困难，相比于用于宣传检测的不同分类层次的模型微调后，GPT-4 仍然远远落后。

Feb, 2024

2022 年 WANLP 共享任务：阿拉伯语宣传检测概述

该研究论文描述了关于如何检测阿拉伯推特上的宣传技术的共享任务，该任务吸引了 63 个团队注册，11 个团队提交了系统描述论文。

Nov, 2022

QCRI-MIT 团队在 SemEval-2019 任务 4 中：宣传分析与超极端新闻检测相遇

本文报道了我们在 SemEval-2019 任务 4 中提出的超级党派新闻检测系统，该系统主要使用一些原本用于检测宣传的工程特征。我们训练了一个基于逻辑回归模型的分类器，并使用从简单单词袋到词汇丰富度和文本可读性等特征来训练它。我们的系统在手动注释的测试数据上实现了 72.9% 的准确率，而在带有远程监督标注的测试数据上则实现了 60.8% 的准确率。另外的实验表明，使用更好的特征预处理可以大幅提高性能。

Apr, 2019

多模态宣传处理

该论文探讨了通过 AI 处理多模态的宣传内容的方法，以分析并影响公众舆论，让机器更接近人类的理解水平。

Feb, 2023

YNU-HPCC 在 SemEval2020 任务 11 中：使用 LSTM 网络检测新闻文章中的宣传技术

这篇论文总结了我们对 SemEval-2020 任务 11 中新闻文章宣传检测技术的研究，我们使用 GloVe、BERT 和 LSTM 模型结构实现了此任务，并且在 SI 和 TC 子任务中取得了良好的结果，超越了官方基线方法的性能，与测试集的排名分别为第 17 和第 22 名，并比较了不同的深度学习模型结构在新闻宣传检测上的性能。

Aug, 2020