简单基线算法在误信息检测中的出色表现

Apr, 2021

简单基线算法在误信息检测中的出色表现

The Surprising Performance of Simple Baselines for Misinformation Detection

Kellin Pelrine, Jacob Danovitch, Reihaneh Rabbany

TL;DR本研究通过对一系列现代基于转换器的语言模型进行基础调整的表现研究，展示了它们具有竞争力并可以显著超越最新提出的先进方法以及一个简单的工具来检测在未来数据集中需要解决的问题，如潜在数据泄漏和混淆变量。

Abstract

As social media becomes increasingly prominent in our day to day lives, it is increasingly important to detect informative content and prevent the spread of disinformation and unverified rumours. While many sophi

social media disinformation language models benchmark datasets fake news detection

发现论文，激发创造

评估基于 BERT 预训练语言模型在检测谣言方面的表现

本研究提出了使用基于 BERT 的预训练语言模型将文本数据编码为向量，并利用神经网络模型进行分类以检测谣言，进一步比较不同语言模型的表现与可训练参数。然后在不同的短文本和长文本数据集上进行了测试，结果表明该技术的表现优于现有技术，并测试其组合数据集的表现，结果表明大数据的训练和测试对提高技术的性能具有相当大的作用。

Mar, 2022

使用 Transformer 和 TF-IDF 检测 COVID-19 阴谋论

研究者通过设计和应用不同的机器学习模型，在探测虚假新闻方面取得了进展，但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果，并试验了一组基于文本的模型，包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果，但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。

May, 2022

基于 Transformer 的自动 COVID-19 假新闻检测系统

本文报告了一种基于 Transformer 模型（BERT、ALBERT 和 XLNET）的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性，以便快速检测假新闻，减少假信息的传播，该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值，排名第 5。

Jan, 2021

提高多模态假新闻检测的泛化能力

本文提出了三种基于多模态 transformer 的假新闻检测模型，并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现，这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力，本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高，并获得了最先进的效果。

May, 2023

使用基于 Transformer 模型的不同比较方法进行 COVID-19 虚假新闻检测的研究

该研究利用基于转换器的五种模型 (BERT、BERT without LSTM、ALBERT、RoBERTa 和 BERT & ALBERT 混合) 对 COVID 19 虚假新闻进行比较分析，其中 RoBERTa 模型在真假两类中均获得 0.98 的 F1 得分，相比其他模型表现更佳。

Aug, 2022

对假新闻立场的取向：基于深度双向 Transformer 语言模型的立场检测自动化虚假信息评估

本研究旨在探索如何使用大规模深度双向转换器语言模型来准确识别包含虚假信息的新闻文章，通过使用 RoBERTa 深度双向转换器语言模型进行预训练后构建了一个大规模语言模型，在 Fake News Challenge 阶段 1 基准测试中实现了 90.01％的加权准确度，表明了在处理虚假信息识别方面，大规模语言模型可以作为强有力的构建块。

Nov, 2019

一种用于假新闻检测的双向 LSTM 方法

本研究使用双向 LSTM 算法对一定数量的外文新闻网站和报纸进行数据收集，在训练数据上达到 84% 的模型准确度和 62.0 的 F1 宏平均得分，以确定新闻真假。

Jun, 2022

多语言数据分类的终身学习自然语言处理方法

本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法，该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器，可以在英语和西班牙语数据集上提高假新闻分类任务的性能。

May, 2022

在资源匮乏的语言中建立文本分类基线

本文旨在解决低资源语言菲律宾文的文本分类问题，并提供了两个以往未发布的数据集作为基准，使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试，以评估模型在不同训练集数量下的表现降低速度，并释放所有模型和数据集供研究社区使用。

May, 2020

MisRoBÆRTa: 变形金刚与错误信息

本论文提出了一种基于 transformer 的深度神经集成体系结构（MisRoBÆRTa），用于对谣言的检测，基于一个大型真实新闻文章数据集进行了训练和测试，并且使用两个 transformer（BART＆RoBERTa）来提高分级性能，成果显示 MisRoBÆRTa 在谣言检测任务上表现优于其他 transformer 模型。

Apr, 2023