跨语言 COVID-19 虚假新闻检测

Oct, 2021

Cross-lingual COVID-19 Fake News Detection

Jiangshu Du, Yingtong Dou, Congying Xia, Limeng Cui, Jing Ma...

TL;DR本文介绍了一种利用已经被 fact-check 过的英文新闻数据集，通过建立一个名为 CrossFake 的深度学习框架来识别汉语低資源下的 COVID-19 虚假信息。经实验结果表明，CrossFake 在跨语言环境下的情况下比其他单语和跨语言虚假信息检测器更有效。

Abstract

The covid-19 pandemic poses a great threat to global public health. Meanwhile, there is massive misinformation associated with the pandemic which advocates unfounded or unscientific claims. Even major social medi

covid-19 misinformation fact-checking cross-lingual fake news detectors

发现论文，激发创造

FakeCovid -- 一份涵盖多语言和跨领域的 COVID-19 事实核查新闻数据集

本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集，并介绍了如何利用自动分类方法，对其中的谣言进行识别，实现了 F1 值为 0.76 的准确性，并将数据集共享在 Github 上。

Jun, 2020

MM-COVID: 用于打击 COVID-19 虚假信息的多语言和多模态数据存储库

为了更好地应对 COVID-19 假新闻，我们提出了一个新的假新闻数据集 MM-COVID（多语言和多维 COVID-19 假新闻数据存储库），该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析，展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。

Nov, 2020

低资源语言中的跨语言迁移学习应用于假新闻检测

本研究提出了一种利用高资源语言训练数据来检测低资源语言中的假新闻的方法，采用对抗学习技术来实现跨语言的检测知识转移，同时利用源信息提高文章可靠性并通过跨语言特征来提高假新闻检测系统的准确性。经实验证明，此方法可以使假新闻检测系统比使用机器翻译训练数据的系统提高 3.71% 的准确率，并将跨语言特征的应用提高了 3.03% 的准确率。

Aug, 2022

Multiverse: 多语种的虚假新闻检测证据

该研究提出了使用多语言证据的多元宇宙特征用于较好的矫正和预测假新闻，并进行了对真假新闻自动实验的对比研究，结果显示该特征与语言特征的结合可以显著地提高假新闻的分类准确率。

Nov, 2022

COVID-19 信息泛滥的英汉比较分析：来自社交媒体文本数据的洞见

通过文本数据在社交媒体平台上提取英文和中文 COVID-19 信息传播现象的对比分析，揭示了 COVID-19 信息传播的常见讨论，并通过主题聚类分析和情感分析深入了解了各语言环境下的主要话题，从而有助于了解 COVID-19 信息传播现象并指导制定不同语言环境下的公共卫生危机期间打击谣言的策略发展。

Nov, 2023

请勿散布谣言！一种多指示语言的方法用于 COVID 虚假推文检测

本文提出了一种基于 BERT 模型的方法，结合社交媒体中提取的相关特征，可以在多种印度语言，包括英语以外的语言中，尽早检测 COVID-19 的虚假消息，并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验，展示了该方法在虚假消息检测上的有效性，达到 89% 的 F 值，在 Hindi 和 Bengali Tweets 中初步建立了基准，分别达到 79% 和 81% 的 F 值。

Oct, 2020

跨语言学习与低资源微调的案例研究：以土耳其事实核查为例

通过引入 FCTR 数据集，本研究通过跨语言转移学习评估大语言模型在土耳其语上的上下文学习（零样本和少样本）表现，结果表明该数据集有可能推动土耳其语研究的进展。

Mar, 2024

ECOL: 使用内容、先验知识和来源信息早期检测 COVID 谎言

本文研究了在医疗保健领域中，社交媒体平台容易受到虚假新闻的传播，从而导致恐慌和错误的药物使用等负面后果。因此，重要的是在虚假新闻广泛传播之前自动检测出它们。本文分析了将内容信息、先前知识和来源可靠性纳入用于虚假新闻早期检测的模型的影响，并提出了一种使用 BERT 语言模型和外部来源（即 Simple English Wikipedia 和来源可靠性标记）来建模这些特征的框架。我们在 CONSTRAINT 数据集上进行的实验证明了集成这些特征早期检测医疗保健领域虚假新闻的益处。

Jan, 2021

CovidMis20: 使用深度学习模型在 Twitter 推文上检测 COVID-19 的误信息

本研究介绍 CovidMis20 数据集，该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文，用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测，后者的测试精度优于前者。

Sep, 2022

跨语言转移学习在推特上识别值得检查的声明

本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型，我们系统地比较了六种方法。结果表明，对于一些语言对，零 - shot 跨语言转移是可能的，并且可以与在目标语言上训练的单语模型一样好。

Nov, 2022