Inno 在 SemEval-2020 任务 11 中:利用纯 Transformer 进行多类别宣传检测
本文介绍了 SemEval-2020 任务 11 的研究结果和主要发现,该任务主要是探测新闻文章中的宣传技术。该任务由两个子任务组成,分别是文本片段的位置识别和宣传技术的分类。该任务吸引了 250 个团队的参与,最优解为使用预训练转换器和合奏的方法。
Sep, 2020
SemEval 2020 Task-11 aims to design automated systems for news propaganda detection, consisting of two sub-tasks, utilizing contextual embeddings and an ensemble of BERT and logistic regression classifiers with linguistic features to identify propaganda techniques and classify propagandist statements respectively.
May, 2020
本文报道了我们在 SemEval-2019 任务 4 中提出的超级党派新闻检测系统,该系统主要使用一些原本用于检测宣传的工程特征。我们训练了一个基于逻辑回归模型的分类器,并使用从简单单词袋到词汇丰富度和文本可读性等特征来训练它。我们的系统在手动注释的测试数据上实现了 72.9% 的准确率,而在带有远程监督标注的测试数据上则实现了 60.8% 的准确率。另外的实验表明,使用更好的特征预处理可以大幅提高性能。
Apr, 2019
本文提出了一种基于 RoBERTa 的 Multi-Instance Multi-Label(MIML)模型,以同时分类文章中的所有内容片段,考虑了标签之间的层级关系,取得了领先的分类效果。
May, 2023
本篇论文介绍了我们在 SemEval-2020 挑战赛 “新闻文章中宣传技巧检测” 的参赛结果,我们使用 bi-LSTM 体系结构进行子任务 Span Identification(SI)和使用复杂的 ensemble model 进行子任务 Technique Classification(TC),并使用 BERT 嵌入,附加词汇特征和标签后处理等,最后在两个子任务中均取得了不错的成绩。
Aug, 2020
这篇论文总结了我们对 SemEval-2020 任务 11 中新闻文章宣传检测技术的研究,我们使用 GloVe、BERT 和 LSTM 模型结构实现了此任务,并且在 SI 和 TC 子任务中取得了良好的结果,超越了官方基线方法的性能,与测试集的排名分别为第 17 和第 22 名,并比较了不同的深度学习模型结构在新闻宣传检测上的性能。
Aug, 2020
本研究通过提出的五种模型集成方法,针对包含 21 种宣传技巧的多标签文本分类任务有效地识别互联网宣传。最终在 WANLP 2022 共享任务中获得 59.73% 的微型 F1 分数,并进一步提出了未来的研究方向。
Oct, 2022
使用 XLM-R 模型预测给定推文中每个宣传技术的概率,运用多粒度神经网络与 mBERT 编码器,基于大规模阿拉伯语数据集进行多标签分类及序列标注任务,该方法在 WANLP'2022 的两项子任务中获得第二名。
Oct, 2022
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
研究使用多语言集成模型,针对 SemEval-2023 任务 3:在在线新闻中检测类别、框架和说服技巧。在三个子任务中,使用 RoBERTa 和 mBERT 等方法,分别在不同语言中获得前几名的结果。
Mar, 2023