IITD 在 WANLP 2022 共享任务中:用于宣传检测的多语言多粒度网络
该研究论文描述了关于如何检测阿拉伯推特上的宣传技术的共享任务,该任务吸引了 63 个团队注册,11 个团队提交了系统描述论文。
Nov, 2022
SemEval 2020 Task-11 aims to design automated systems for news propaganda detection, consisting of two sub-tasks, utilizing contextual embeddings and an ensemble of BERT and logistic regression classifiers with linguistic features to identify propaganda techniques and classify propagandist statements respectively.
May, 2020
本研究通过提出的五种模型集成方法,针对包含 21 种宣传技巧的多标签文本分类任务有效地识别互联网宣传。最终在 WANLP 2022 共享任务中获得 59.73% 的微型 F1 分数,并进一步提出了未来的研究方向。
Oct, 2022
在这篇论文中,我们讨论了我们参与阿拉伯语环境下 ArAIEval 共享任务的情况,我们在子任务 1A 和 2A 中分别获得了第 9 和第 10 的名次。我们的实验包括对转换器模型进行微调,并使用 GPT-4 进行零样本和少样本学习。
Nov, 2023
本文介绍了 SemEval-2020 任务 11 的研究结果和主要发现,该任务主要是探测新闻文章中的宣传技术。该任务由两个子任务组成,分别是文本片段的位置识别和宣传技术的分类。该任务吸引了 250 个团队的参与,最优解为使用预训练转换器和合奏的方法。
Sep, 2020
本文研究了阿拉伯文本中宣传技术检测的优化,包括推文和新闻段落,通过对阿拉伯评估任务 1 的 AraBERT v2 模型进行微调和使用神经网络分类器对序列标记进行了实验。实验结果表明,依靠单词的第一个标记进行技术预测可以取得最佳性能。此外,将体裁信息作为特征加入模型进一步增强了性能。我们的系统在排行榜上得分为 25.41,排名第四。随后的提交改进进一步提高了我们的得分至 26.68。
Jul, 2024
这篇论文总结了我们对 SemEval-2020 任务 11 中新闻文章宣传检测技术的研究,我们使用 GloVe、BERT 和 LSTM 模型结构实现了此任务,并且在 SI 和 TC 子任务中取得了良好的结果,超越了官方基线方法的性能,与测试集的排名分别为第 17 和第 22 名,并比较了不同的深度学习模型结构在新闻宣传检测上的性能。
Aug, 2020
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
介绍了 ArAIEval 共享任务的概述,该任务主要包括通过检测推文和新闻文章中的说服技巧来识别说服技巧,并通过推文中的二进制和多类别设置来检测虚假信息。
Nov, 2023
本文提出了一种基于 RoBERTa 的 Multi-Instance Multi-Label(MIML)模型,以同时分类文章中的所有内容片段,考虑了标签之间的层级关系,取得了领先的分类效果。
May, 2023