使用 BERT 的 COVID-19 谣言检测二阶分类器:对印尼推文的研究
为了在新冠疫情期间快速检测和减轻假新闻的传播,我们开发了一种基于机器学习自然语言处理模型的两阶段自动化检测流程来检测 COVID-19 假新闻,其中第一模型利用了基于事实检查的算法,通过检索特定 COVID-19 索赔的相关事实,第二模型通过计算索赔和手动策划的 COVID-19 数据集中检索到的真实事实之间的文本蕴含程度来验证索赔的真实程度。
Nov, 2020
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
本研究介绍了一个涉及巴西、印度尼西亚和尼日利亚三个中等收入国家的 COVID-19 疫苗错误信息的多语言数据集。我们采用了两种方法来开发 COVID-19 疫苗错误信息检测模型:领域特定的预训练和使用大型语言模型进行文本增强。我们的最佳错误信息检测模型相较于基准模型在宏 F1 分数上的改进范围从 2.7 到 15.9 个百分点。此外,我们将我们的错误信息检测模型应用于 2020 年至 2022 年期间来自这三个国家的 1900 万条未标记推文的大规模研究,展示了我们数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析结果表明,巴西和印度尼西亚的新冠病例数量的百分比变化与 COVID-19 疫苗错误信息率呈错位的正相关,而这三个国家之间的错误信息率之间存在显著的正相关。
Nov, 2023
本文报告了一种基于 Transformer 模型(BERT、ALBERT 和 XLNET)的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性,以便快速检测假新闻,减少假信息的传播,该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值,排名第 5。
Jan, 2021
本文介绍了使用基于 Transformer 的 COVID-Twitter-BERT(CT-BERT)模型集合的方法来检测英文 COVID-19 虚假新闻的结果和表现。在约 166 个团队中,该方法在第一个共享任务的测试集上取得了最高的加权 F1 得分 98.69。
Dec, 2020
本研究介绍 CovidMis20 数据集,该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文,用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测,后者的测试精度优于前者。
Sep, 2022
本文提出了一种基于 BERT 模型的方法,结合社交媒体中提取的相关特征,可以在多种印度语言,包括英语以外的语言中,尽早检测 COVID-19 的虚假消息,并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验,展示了该方法在虚假消息检测上的有效性,达到 89% 的 F 值,在 Hindi 和 Bengali Tweets 中初步建立了基准,分别达到 79% 和 81% 的 F 值。
Oct, 2020
以 COVID-Twitter-BERT (CT-BERT) 为基础的变形器模型和微调技术可以有效地识别有用的 COVID-19 相关的 Twitter 帖子,获得了 2020 年 W-NUT 共享任务 2 中排名第三的 F1 分数为 90.94%
Sep, 2020
该研究利用基于转换器的五种模型 (BERT、BERT without LSTM、ALBERT、RoBERTa 和 BERT & ALBERT 混合) 对 COVID 19 虚假新闻进行比较分析,其中 RoBERTa 模型在真假两类中均获得 0.98 的 F1 得分,相比其他模型表现更佳。
Aug, 2022
该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务,并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机(SVM)进行训练(即 BERT +),并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。
Dec, 2020