使用变换器识别自动生成的标题

ACLSep, 2020

Identifying Automatically Generated Headlines using Transformers

Antonis Maronikolakis, Hinrich Schutze, Mark Stevenson

TL;DR通过构建含有人工和计算机生成的标题数据集，研究表明人类只有 47.8% 的准确率识别出虚假标题，而应用于语言模型的 Transformers 却达到了 85.7% 的整体准确率，说明目前的自然语言生成模型可以被识别出来。

Abstract

false information spread via the internet and social media influences public opinion and user activity, while generative models enable fake conte

false information generative models fake content deep learning transformers

发现论文，激发创造

基于 Transformer 的自动 COVID-19 假新闻检测系统

本文报告了一种基于 Transformer 模型（BERT、ALBERT 和 XLNET）的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性，以便快速检测假新闻，减少假信息的传播，该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值，排名第 5。

Jan, 2021

基于 Transformer 模型（BERT，ALBERT 和 RoBERTa）在假新闻检测中的性能分析

该研究探索了 transformer 模型，发现 ALBERT 在检测印尼语假新闻方面表现最佳

Aug, 2023

机器生成的文本能被有效识别，能否训练语言模型避免被识别？

使用预训练的生成模型，比如 GPT-3、GPT-NeoX 或 OPT，将人工生成的文本与机器生成的文本相区分的重要性逐渐增加。我们通过改善五个不同的语言模型来生成合成推文，并发现浅层学习分类算法（如朴素贝叶斯）在检测准确率方面达到了 0.6 至 0.8 之间的水平。与基于人类的检测相比，浅层学习分类器在使用较高温度值进行文本生成时的检测准确率较低。人类更注重语言可接受性，而较低温度值下的可接受性更高。相比之下，基于转换器的分类器具有 0.9 及以上的准确度。我们发现使用强化学习方法改进生成模型可以成功逃避 BERT-based 分类器，使其检测准确率达到 0.15 或更低。

Oct, 2023

自动检测虚假新闻

本文聚焦于自动识别在线新闻中的虚假内容，首先介绍了用于虚假新闻检测的新颖数据集，描述了收集、注释和验证过程，并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次，本文开展了一系列学习实验以构建准确的虚假新闻检测器，并比较了手动和自动识别虚假新闻的结果。

Aug, 2017

基于机器学习技术的假新闻检测

我们使用自然语言处理方法对 1876 条新闻数据进行预处理，通过训练模型将假新闻和真实新闻进行分类，最终通过 Naive Bayes 分类器得出 56% 的准确率和平均 32% 的 F1-macro 得分。

Sep, 2023

防御神经伪新闻

该研究呈现了一种名为 Grover 的可控文本生成模型，该模型可生成逼真的假新闻，但通过使用 Grover 模型自身进行验证，可提高检测真假信息的准确性。同时，该研究强调在探索和应对类似 Grover 模型可能带来的风险时，需关注其中的道德问题。

May, 2019

对假新闻立场的取向：基于深度双向 Transformer 语言模型的立场检测自动化虚假信息评估

本研究旨在探索如何使用大规模深度双向转换器语言模型来准确识别包含虚假信息的新闻文章，通过使用 RoBERTa 深度双向转换器语言模型进行预训练后构建了一个大规模语言模型，在 Fake News Challenge 阶段 1 基准测试中实现了 90.01％的加权准确度，表明了在处理虚假信息识别方面，大规模语言模型可以作为强有力的构建块。

Nov, 2019

使用 Transformer 和 TF-IDF 检测 COVID-19 阴谋论

研究者通过设计和应用不同的机器学习模型，在探测虚假新闻方面取得了进展，但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果，并试验了一组基于文本的模型，包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果，但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。

May, 2022

自动检测虚假新闻：当前模型是 “事实核查” 还是 “直觉判断”？

这篇研究通过多种神经和非神经预处理以及风格转移技术，消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标，从而推断出这些模型中可能隐藏着可操纵的信号，并通过情感向量模型构建进一步证明了这一假设。

Apr, 2022

提高多模态假新闻检测的泛化能力

本文提出了三种基于多模态 transformer 的假新闻检测模型，并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现，这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力，本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高，并获得了最先进的效果。

May, 2023