跨语言 COVID-19 虚假新闻检测
本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集,并介绍了如何利用自动分类方法,对其中的谣言进行识别,实现了 F1 值为 0.76 的准确性,并将数据集共享在 Github 上。
Jun, 2020
为了更好地应对 COVID-19 假新闻,我们提出了一个新的假新闻数据集 MM-COVID(多语言和多维 COVID-19 假新闻数据存储库),该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析,展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。
Nov, 2020
本研究提出了一种利用高资源语言训练数据来检测低资源语言中的假新闻的方法,采用对抗学习技术来实现跨语言的检测知识转移,同时利用源信息提高文章可靠性并通过跨语言特征来提高假新闻检测系统的准确性。经实验证明,此方法可以使假新闻检测系统比使用机器翻译训练数据的系统提高 3.71% 的准确率,并将跨语言特征的应用提高了 3.03% 的准确率。
Aug, 2022
该研究提出了使用多语言证据的多元宇宙特征用于较好的矫正和预测假新闻,并进行了对真假新闻自动实验的对比研究,结果显示该特征与语言特征的结合可以显著地提高假新闻的分类准确率。
Nov, 2022
通过文本数据在社交媒体平台上提取英文和中文 COVID-19 信息传播现象的对比分析,揭示了 COVID-19 信息传播的常见讨论,并通过主题聚类分析和情感分析深入了解了各语言环境下的主要话题,从而有助于了解 COVID-19 信息传播现象并指导制定不同语言环境下的公共卫生危机期间打击谣言的策略发展。
Nov, 2023
本文提出了一种基于 BERT 模型的方法,结合社交媒体中提取的相关特征,可以在多种印度语言,包括英语以外的语言中,尽早检测 COVID-19 的虚假消息,并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验,展示了该方法在虚假消息检测上的有效性,达到 89% 的 F 值,在 Hindi 和 Bengali Tweets 中初步建立了基准,分别达到 79% 和 81% 的 F 值。
Oct, 2020
通过引入 FCTR 数据集,本研究通过跨语言转移学习评估大语言模型在土耳其语上的上下文学习(零样本和少样本)表现,结果表明该数据集有可能推动土耳其语研究的进展。
Mar, 2024
本文研究了在医疗保健领域中,社交媒体平台容易受到虚假新闻的传播,从而导致恐慌和错误的药物使用等负面后果。因此,重要的是在虚假新闻广泛传播之前自动检测出它们。本文分析了将内容信息、先前知识和来源可靠性纳入用于虚假新闻早期检测的模型的影响,并提出了一种使用 BERT 语言模型和外部来源(即 Simple English Wikipedia 和来源可靠性标记)来建模这些特征的框架。我们在 CONSTRAINT 数据集上进行的实验证明了集成这些特征早期检测医疗保健领域虚假新闻的益处。
Jan, 2021
本研究介绍 CovidMis20 数据集,该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文,用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测,后者的测试精度优于前者。
Sep, 2022
本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零 - shot 跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样好。
Nov, 2022