使用 Transformer 和 TF-IDF 检测 COVID-19 阴谋论

May, 2022

使用 Transformer 和 TF-IDF 检测 COVID-19 阴谋论

Detecting COVID-19 Conspiracy Theories with Transformers and TF-IDF

Haoming Guo, Tianyi Huang, Huixuan Huang, Mingyue Fan, Gerald Friedland

TL;DR研究者通过设计和应用不同的机器学习模型，在探测虚假新闻方面取得了进展，但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果，并试验了一组基于文本的模型，包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果，但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。

Abstract

The sharing of fake news and conspiracy theories on social media has wide-spread negative effects. By designing and applying different mac

fake news conspiracy theories social media machine learning models covid-19

发现论文，激发创造

基于 Transformer 的自动 COVID-19 假新闻检测系统

本文报告了一种基于 Transformer 模型（BERT、ALBERT 和 XLNET）的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性，以便快速检测假新闻，减少假信息的传播，该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值，排名第 5。

Jan, 2021

使用基于 Transformer 模型的不同比较方法进行 COVID-19 虚假新闻检测的研究

该研究利用基于转换器的五种模型 (BERT、BERT without LSTM、ALBERT、RoBERTa 和 BERT & ALBERT 混合) 对 COVID 19 虚假新闻进行比较分析，其中 RoBERTa 模型在真假两类中均获得 0.98 的 F1 得分，相比其他模型表现更佳。

Aug, 2022

基于 Transformer 的语言模型微调方法在 COVID-19 假新闻检测中的应用

本文提出了一种基于变压器的语言模型微调方法，用于检测 COVID-19 假新闻，该方法通过扩展专业短语的语义，适应热身 softmax 损失以区分硬挖掘样本，并通过对抗性训练提高模型的鲁棒性，采用 RoBERTa 和领域专用模型 CT-BERT 提取预测特征，并由一个多层感知器融合细粒度和高级别的特定表示。经 COVID-19 假新闻数据集评估，实验结果在各种评估指标上都表现优越，最好的加权平均 F1 得分为 99.02％。

Jan, 2021

利用 CT-BERT 和集成学习进行 COVID-19 虚假新闻检测在 Constraint@AAAI2021 上的 g2tmn

本文介绍了使用基于 Transformer 的 COVID-Twitter-BERT（CT-BERT）模型集合的方法来检测英文 COVID-19 虚假新闻的结果和表现。在约 166 个团队中，该方法在第一个共享任务的测试集上取得了最高的加权 F1 得分 98.69。

Dec, 2020

COVID-19 虚假新闻检测和事实核查的两阶段 Transformer 模型

为了在新冠疫情期间快速检测和减轻假新闻的传播，我们开发了一种基于机器学习自然语言处理模型的两阶段自动化检测流程来检测 COVID-19 假新闻，其中第一模型利用了基于事实检查的算法，通过检索特定 COVID-19 索赔的相关事实，第二模型通过计算索赔和手动策划的 COVID-19 数据集中检索到的真实事实之间的文本蕴含程度来验证索赔的真实程度。

Nov, 2020

应对 COVID-19 疫情谣言的变压器技术

本文提出了在 NLP4IF-2021 共享任务中使用 transformers 对社交媒体上的虚假信息进行检测的方法，并在三种语言的数据集中取得了第四的好成绩，分别为阿拉伯语 0.707，保加利亚语 0.578 和英语 0.864。

Apr, 2021

评估深度学习方法用于 Covid19 虚假新闻检测

本文研究通过数据挖掘的角度对社交媒体上的假新闻进行自动检测，并用不同的文本分类算法在 Contraint@AAAI 2021 Covid-19 假新闻检测数据集上进行评估。通过使用卷积神经网络（CNN）、长短时记忆（LSTM）和双向编码器变换器（BERT）来进行分类，并评估了无标签 Covid 推文语料库中的无监督学习的重要性。最终结果在 Covid-19 假新闻检测数据集上表现出 98.41％的最佳准确性。

Jan, 2021

Constraint 2021: COVID-19 虚假新闻检测机器学习模型共享任务

本研究为 Constraint 2021 年 COVID-19 虚假新闻检测共享任务做出了贡献，提出了将经典机器学习算法与语言学特征相结合的方法，在数据预处理方面进行了多种尝试并得到了不错的结果。通过使用线性支持向量机算法，在测试数据上获得了 95.19% 的加权平均 F1 得分，名列排行榜第 80 位。

Jan, 2021

使用语境化单词嵌入分类与 COVID-19 相关的基于文本的阴谋推文

本研究利用 BERT、ELMO 及其组合进行特征提取，并使用 RandomForest 作为分类器，探讨对 COVID-19 相关阴谋论推文进行分类的挑战，结果显示 ELMO 略优于 BERT，但在特征层面上的组合降低了性能。

Mar, 2023

COVID-19 假新闻检测模型的泛化能力

为了抗击 COVID-19 疫情期间社交媒体上的虚假信息，本文提出两种方法，一是 fine-tuning transformers-based language models，二是通过 influence data cleansing 去除危险的训练实例。通过在两个 COVID-19 虚假新闻测试集上评估模型，我们强调了此任务的模型泛化能力的重要性。最终模型可以达到高性能和模型泛化性能的平衡。

Jan, 2021