简单基线算法在误信息检测中的出色表现
本研究提出了使用基于 BERT 的预训练语言模型将文本数据编码为向量,并利用神经网络模型进行分类以检测谣言,进一步比较不同语言模型的表现与可训练参数。然后在不同的短文本和长文本数据集上进行了测试,结果表明该技术的表现优于现有技术,并测试其组合数据集的表现,结果表明大数据的训练和测试对提高技术的性能具有相当大的作用。
Mar, 2022
研究者通过设计和应用不同的机器学习模型,在探测虚假新闻方面取得了进展,但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果,并试验了一组基于文本的模型,包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果,但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。
May, 2022
本文报告了一种基于 Transformer 模型(BERT、ALBERT 和 XLNET)的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性,以便快速检测假新闻,减少假信息的传播,该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值,排名第 5。
Jan, 2021
本文提出了三种基于多模态 transformer 的假新闻检测模型,并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现,这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力,本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高,并获得了最先进的效果。
May, 2023
该研究利用基于转换器的五种模型 (BERT、BERT without LSTM、ALBERT、RoBERTa 和 BERT & ALBERT 混合) 对 COVID 19 虚假新闻进行比较分析,其中 RoBERTa 模型在真假两类中均获得 0.98 的 F1 得分,相比其他模型表现更佳。
Aug, 2022
本研究旨在探索如何使用大规模深度双向转换器语言模型来准确识别包含虚假信息的新闻文章,通过使用 RoBERTa 深度双向转换器语言模型进行预训练后构建了一个大规模语言模型,在 Fake News Challenge 阶段 1 基准测试中实现了 90.01%的加权准确度,表明了在处理虚假信息识别方面,大规模语言模型可以作为强有力的构建块。
Nov, 2019
本研究使用双向 LSTM 算法对一定数量的外文新闻网站和报纸进行数据收集,在训练数据上达到 84% 的模型准确度和 62.0 的 F1 宏平均得分,以确定新闻真假。
Jun, 2022
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
本文旨在解决低资源语言菲律宾文的文本分类问题,并提供了两个以往未发布的数据集作为基准,使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试,以评估模型在不同训练集数量下的表现降低速度,并释放所有模型和数据集供研究社区使用。
May, 2020
本论文提出了一种基于 transformer 的深度神经集成体系结构(MisRoBÆRTa),用于对谣言的检测,基于一个大型真实新闻文章数据集进行了训练和测试,并且使用两个 transformer(BART&RoBERTa)来提高分级性能,成果显示 MisRoBÆRTa 在谣言检测任务上表现优于其他 transformer 模型。
Apr, 2023