使用变换器识别自动生成的标题
本文报告了一种基于 Transformer 模型(BERT、ALBERT 和 XLNET)的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性,以便快速检测假新闻,减少假信息的传播,该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值,排名第 5。
Jan, 2021
该研究探索了 transformer 模型,发现 ALBERT 在检测印尼语假新闻方面表现最佳
Aug, 2023
使用预训练的生成模型,比如 GPT-3、GPT-NeoX 或 OPT,将人工生成的文本与机器生成的文本相区分的重要性逐渐增加。我们通过改善五个不同的语言模型来生成合成推文,并发现浅层学习分类算法(如朴素贝叶斯)在检测准确率方面达到了 0.6 至 0.8 之间的水平。与基于人类的检测相比,浅层学习分类器在使用较高温度值进行文本生成时的检测准确率较低。人类更注重语言可接受性,而较低温度值下的可接受性更高。相比之下,基于转换器的分类器具有 0.9 及以上的准确度。我们发现使用强化学习方法改进生成模型可以成功逃避 BERT-based 分类器,使其检测准确率达到 0.15 或更低。
Oct, 2023
本文聚焦于自动识别在线新闻中的虚假内容,首先介绍了用于虚假新闻检测的新颖数据集,描述了收集、注释和验证过程,并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次,本文开展了一系列学习实验以构建准确的虚假新闻检测器,并比较了手动和自动识别虚假新闻的结果。
Aug, 2017
我们使用自然语言处理方法对 1876 条新闻数据进行预处理,通过训练模型将假新闻和真实新闻进行分类,最终通过 Naive Bayes 分类器得出 56% 的准确率和平均 32% 的 F1-macro 得分。
Sep, 2023
该研究呈现了一种名为 Grover 的可控文本生成模型,该模型可生成逼真的假新闻,但通过使用 Grover 模型自身进行验证,可提高检测真假信息的准确性。同时,该研究强调在探索和应对类似 Grover 模型可能带来的风险时,需关注其中的道德问题。
May, 2019
本研究旨在探索如何使用大规模深度双向转换器语言模型来准确识别包含虚假信息的新闻文章,通过使用 RoBERTa 深度双向转换器语言模型进行预训练后构建了一个大规模语言模型,在 Fake News Challenge 阶段 1 基准测试中实现了 90.01%的加权准确度,表明了在处理虚假信息识别方面,大规模语言模型可以作为强有力的构建块。
Nov, 2019
研究者通过设计和应用不同的机器学习模型,在探测虚假新闻方面取得了进展,但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果,并试验了一组基于文本的模型,包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果,但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。
May, 2022
这篇研究通过多种神经和非神经预处理以及风格转移技术,消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标,从而推断出这些模型中可能隐藏着可操纵的信号,并通过情感向量模型构建进一步证明了这一假设。
Apr, 2022
本文提出了三种基于多模态 transformer 的假新闻检测模型,并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现,这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力,本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高,并获得了最先进的效果。
May, 2023